Zum Hauptinhalt springen

Rank::Archive - Parser für das Datum der ersten und letzten Website-Zwischenspeicherung im Webarchiv

Übersicht des Parsers

Übersicht des ParsersRank::ArchiveRank::Archive – Parser für das Web-Archiv, bestimmt das Datum der ersten und letzten Cache-Speicherung sowie die Anzahl der gespeicherten Kopien einer Website.

Die Funktionalität von A-Parser ermöglicht es, Einstellungen für den Scraper Rank::Archive zur späteren Verwendung zu speichern (Presets), Zeitpläne für die Datenerfassung festzulegen und vieles mehr.

Das Speichern der Ergebnisse ist in jeder von Ihnen benötigten Form und Struktur möglich, dank der integrierten leistungsstarken Template-Engine Template Toolkit, die es erlaubt, zusätzliche Logik auf die Ergebnisse anzuwenden und Daten in verschiedenen Formaten auszugeben, einschließlich JSON, SQL und CSV.

Gesammelte Daten

  • Datum der ersten Cache-Speicherung
  • Datum der letzten Cache-Speicherung
  • Anzahl der gespeicherten Kopien der Website
Gesammelte Daten

Anwendungsbeispiele

  • Überprüfung des Vorhandenseins einer Website-Kopie im Webarchiv sowie der Indexierungsdaten der ersten und letzten Kopie
  • Bewertung von Domains: Eine große Anzahl von Website-Kopien im Webarchiv kann auf hohen Traffic der Website hindeuten

Abfragen

Als Abfragen müssen die Domains der gesuchten Websites angegeben werden, zum Beispiel:

a-parser.com
www.yahoo.com
google.com
vk.com
youtube.com

Beispiele für die Ergebnisausgabe

A-Parser unterstützt eine flexible Formatierung der Ergebnisse dank der integrierten Template-Engine Template Toolkit, was die Ausgabe der Ergebnisse in beliebiger Form sowie in strukturierter Form wie CSV oder JSON ermöglicht.

Standardausgabe

Ergebnisformat:

$query: $first - $last ($times times)\n

Im Ergebnis werden die Website, die Indexierungsdaten der ersten und letzten Kopie sowie die Anzahl der gespeicherten Kopien der Website angezeigt:

vk.com: 11.05.2000 - 21.05.2014(8965 times)  
youtube.com: 28.04.2005 - 21.05.2014(28150 times)
a-parser.com: 16.03.2012 - 17.05.2014(56 times)
google.com: 11.11.1998 - 21.05.2014(34575 times)
www.yahoo.com: 17.10.1996 - 20.05.2014(28537 times)

Speichern im SQL-Format

Ergebnisformat:

[% "INSERT INTO archive VALUES('" _ query _ "', '" _ first _ "', '" _ last _ "', '" _ times _ "')\n" %]

Beispielergebnis:

INSERT INTO archive VALUES('http://a-parser.com/', '16.03.2012', '16.01.2021', '290')
INSERT INTO archive VALUES('http://yandex.ru/', '06.12.1998', '25.03.2021', '141421')
INSERT INTO archive VALUES('http://facebook.com/', '12.12.1998', '25.03.2021', '4877156')
INSERT INTO archive VALUES('http://vk.com/', '11.05.2000', '25.03.2021', '172132')
INSERT INTO archive VALUES('http://google.com/', '11.11.1998', '25.03.2021', '5969502')
INSERT INTO archive VALUES('http://youtube.com/', '28.04.2005', '25.03.2021', '2309673')

Ergebnis-Dump in JSON

Allgemeines Ausgabeformat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.first = p1.first;
obj.last = p1.last;
obj.times = p1.times;

obj.json %]

Anfangstext:

[

Endtext:

]

Beispielergebnis:

[
{"first":"12.12.1998","query":"http://facebook.com/","last":"25.03.2021","times":4877156},
{"first":"06.12.1998","query":"http://yandex.ru/","last":"25.03.2021","times":141421},
{"first":"16.03.2012","query":"http://a-parser.com/","last":"16.01.2021","times":290},
{"first":"28.04.2005","query":"http://youtube.com/","last":"25.03.2021","times":2309673},
{"first":"11.11.1998","query":"http://google.com/","last":"25.03.2021","times":5969502},
{"first":"11.05.2000","query":"http://vk.com/","last":"25.03.2021","times":172132}
]
Tipp

Damit die Optionen "Anfangstext" und "Endtext" im Task-Editor verfügbar sind, muss "Mehr Optionen" aktiviert werden.

Mögliche Einstellungen