Ga naar de hoofdinhoud

Rank::Archive - Scraper voor de eerste en laatste cache-datum van een website in het webarchief

Overzicht van de scraper

Overzicht van de scraperRank::ArchiveRank::Archive – scraper van het Web Archive, bepaalt de datum van de eerste en laatste caching, evenals het aantal opgeslagen kopieën van de site.

De functionaliteit van A-Parser maakt het mogelijk om instellingen van de Rank::Archive scraper op te slaan voor toekomstig gebruik (presets), scraping-schema's in te stellen en nog veel meer.

Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.

Verzamelde gegevens

  • Datum van eerste caching
  • Datum van laatste caching
  • Aantal opgeslagen kopieën van de site
Verzamelde gegevens

Toepassingen

  • Controleren op de aanwezigheid van een kopie van de site in het webarchief, evenals de indexeringsdata van de eerste en laatste kopie
  • Domeinevaluatie: een groot aantal kopieën van de site in het webarchief kan duiden op een hoog bezoekersaantal van de site

Query's

Als query's moet het domein van de gezochte site worden opgegeven, bijvoorbeeld:

a-parser.com
www.yahoo.com
google.com
vk.com
youtube.com

Mogelijkheden voor resultaatweergave

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden weergegeven, evenals in gestructureerde formaten zoals CSV of JSON

Standaard uitvoer

Resultaatformaat:

$query: $first - $last ($times times)\n

Het resultaat toont de site, de indexeringsdata van de eerste en laatste kopie en het aantal opgeslagen kopieën van de site:

vk.com: 11.05.2000 - 21.05.2014(8965 times)  
youtube.com: 28.04.2005 - 21.05.2014(28150 times)
a-parser.com: 16.03.2012 - 17.05.2014(56 times)
google.com: 11.11.1998 - 21.05.2014(34575 times)
www.yahoo.com: 17.10.1996 - 20.05.2014(28537 times)

Opslaan in SQL-formaat

Resultaatformaat:

[% "INSERT INTO archive VALUES('" _ query _ "', '" _ first _ "', '" _ last _ "', '" _ times _ "')\n" %]

Voorbeeld van resultaat:

INSERT INTO archive VALUES('http://a-parser.com/', '16.03.2012', '16.01.2021', '290')
INSERT INTO archive VALUES('http://yandex.ru/', '06.12.1998', '25.03.2021', '141421')
INSERT INTO archive VALUES('http://facebook.com/', '12.12.1998', '25.03.2021', '4877156')
INSERT INTO archive VALUES('http://vk.com/', '11.05.2000', '25.03.2021', '172132')
INSERT INTO archive VALUES('http://google.com/', '11.11.1998', '25.03.2021', '5969502')
INSERT INTO archive VALUES('http://youtube.com/', '28.04.2005', '25.03.2021', '2309673')

Resultaten dumpen naar JSON

Algemeen resultaatformaat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.first = p1.first;
obj.last = p1.last;
obj.times = p1.times;

obj.json %]

Begintekst:

[

Eindtekst:

]

Voorbeeld van resultaat:

[
{"first":"12.12.1998","query":"http://facebook.com/","last":"25.03.2021","times":4877156},
{"first":"06.12.1998","query":"http://yandex.ru/","last":"25.03.2021","times":141421},
{"first":"16.03.2012","query":"http://a-parser.com/","last":"16.01.2021","times":290},
{"first":"28.04.2005","query":"http://youtube.com/","last":"25.03.2021","times":2309673},
{"first":"11.11.1998","query":"http://google.com/","last":"25.03.2021","times":5969502},
{"first":"11.05.2000","query":"http://vk.com/","last":"25.03.2021","times":172132}
]
tip

Om de opties "Prepend text" en "Append text" beschikbaar te maken in de Taakeditor, moet u "More options" activeren.

Mogelijke instellingen