Hoppa till huvudinnehåll

Rank::Archive - Scraper för datum för första och sista cachning av webbplats i webbarkiv

Översikt av scraper

Översikt av scraperRank::ArchiveRank::Archive – scraper för Web Archive, fastställer datum för första och sista cachning, samt antalet sparade kopior av webbplatsen.

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för scrapern Rank::Archive för framtida bruk (förinställningar), ställa in schemalagd dataskrapning och mycket mer.

Det är möjligt att spara resultat i den form och struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Insamlade data

  • Datum för första cachning
  • Datum för senaste cachning
  • Antal sparade kopior av webbplatsen
Insamlade data

Användningsfall

  • Kontrollera om det finns en kopia av webbplatsen i webbarkivet, samt indexeringsdatum för den första och sista kopian
  • Domänutvärdering: ett stort antal kopior av en webbplats i webbarkivet kan tyda på hög trafik till webbplatsen

Frågor

Som frågor måste du ange domänen för den webbplats du söker efter, till exempel:

a-parser.com
www.yahoo.com
google.com
vk.com
youtube.com

Exempel på resultatvisning

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att visa resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON

Standardutdata

Resultatformat:

$query: $first - $last ($times times)\n

Resultatet visar webbplatsen, indexeringsdatum för den första och sista kopian samt antalet sparade kopior av webbplatsen:

vk.com: 11.05.2000 - 21.05.2014(8965 times)  
youtube.com: 28.04.2005 - 21.05.2014(28150 times)
a-parser.com: 16.03.2012 - 17.05.2014(56 times)
google.com: 11.11.1998 - 21.05.2014(34575 times)
www.yahoo.com: 17.10.1996 - 20.05.2014(28537 times)

Spara i SQL-format

Resultatformat:

[% "INSERT INTO archive VALUES('" _ query _ "', '" _ first _ "', '" _ last _ "', '" _ times _ "')\n" %]

Exempel på resultat:

INSERT INTO archive VALUES('http://a-parser.com/', '16.03.2012', '16.01.2021', '290')
INSERT INTO archive VALUES('http://yandex.ru/', '06.12.1998', '25.03.2021', '141421')
INSERT INTO archive VALUES('http://facebook.com/', '12.12.1998', '25.03.2021', '4877156')
INSERT INTO archive VALUES('http://vk.com/', '11.05.2000', '25.03.2021', '172132')
INSERT INTO archive VALUES('http://google.com/', '11.11.1998', '25.03.2021', '5969502')
INSERT INTO archive VALUES('http://youtube.com/', '28.04.2005', '25.03.2021', '2309673')

Dumpa resultat till JSON

Allmänt resultatformat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.first = p1.first;
obj.last = p1.last;
obj.times = p1.times;

obj.json %]

Starttext:

[

Sluttext:

]

Exempel på resultat:

[
{"first":"12.12.1998","query":"http://facebook.com/","last":"25.03.2021","times":4877156},
{"first":"06.12.1998","query":"http://yandex.ru/","last":"25.03.2021","times":141421},
{"first":"16.03.2012","query":"http://a-parser.com/","last":"16.01.2021","times":290},
{"first":"28.04.2005","query":"http://youtube.com/","last":"25.03.2021","times":2309673},
{"first":"11.11.1998","query":"http://google.com/","last":"25.03.2021","times":5969502},
{"first":"11.05.2000","query":"http://vk.com/","last":"25.03.2021","times":172132}
]
tips

För att alternativen "Prepend text" och "Append text" ska vara tillgängliga i Task Editor måste du aktivera "More options".

Möjliga inställningar