Passer au contenu principal

Rank::Archive - Scraper de date de première et dernière mise en cache d'un site dans le Web Archive

Présentation du scraper

Présentation du scraperRank::ArchiveRank::Archive – scraper de Web Archive, détermine la date de la première et de la dernière mise en cache, ainsi que le nombre de copies sauvegardées du site.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte du scraper Rank::Archive pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.

Données collectées

  • Date de la première mise en cache
  • Date de la dernière mise en cache
  • Nombre de copies sauvegardées du site
Données collectées

Cas d'utilisation

  • Vérification de la présence d'une copie du site dans le Web Archive, ainsi que des dates d'indexation de la première et de la dernière copie
  • Évaluation des domaines : un grand nombre de copies du site dans le Web Archive peut indiquer un trafic important sur le site

Requêtes

Comme requêtes, il est nécessaire d'indiquer le domaine du site recherché, par exemple :

a-parser.com
www.yahoo.com
google.com
vk.com
youtube.com

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON

Affichage par défaut

Format du résultat :

$query: $first - $last ($times times)\n

Le résultat affiche le site, les dates d'indexation de la première et de la dernière copie et le nombre de copies sauvegardées du site :

vk.com: 11.05.2000 - 21.05.2014(8965 times)  
youtube.com: 28.04.2005 - 21.05.2014(28150 times)
a-parser.com: 16.03.2012 - 17.05.2014(56 times)
google.com: 11.11.1998 - 21.05.2014(34575 times)
www.yahoo.com: 17.10.1996 - 20.05.2014(28537 times)

Sauvegarde au format SQL

Format du résultat :

[% "INSERT INTO archive VALUES('" _ query _ "', '" _ first _ "', '" _ last _ "', '" _ times _ "')\n" %]

Exemple de résultat :

INSERT INTO archive VALUES('http://a-parser.com/', '16.03.2012', '16.01.2021', '290')
INSERT INTO archive VALUES('http://yandex.ru/', '06.12.1998', '25.03.2021', '141421')
INSERT INTO archive VALUES('http://facebook.com/', '12.12.1998', '25.03.2021', '4877156')
INSERT INTO archive VALUES('http://vk.com/', '11.05.2000', '25.03.2021', '172132')
INSERT INTO archive VALUES('http://google.com/', '11.11.1998', '25.03.2021', '5969502')
INSERT INTO archive VALUES('http://youtube.com/', '28.04.2005', '25.03.2021', '2309673')

Dump des résultats en JSON

Format de sortie general:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.first = p1.first;
obj.last = p1.last;
obj.times = p1.times;

obj.json %]

Texte initial:

[

Texte final:

]

Exemple de résultat :

[
{"first":"12.12.1998","query":"http://facebook.com/","last":"25.03.2021","times":4877156},
{"first":"06.12.1998","query":"http://yandex.ru/","last":"25.03.2021","times":141421},
{"first":"16.03.2012","query":"http://a-parser.com/","last":"16.01.2021","times":290},
{"first":"28.04.2005","query":"http://youtube.com/","last":"25.03.2021","times":2309673},
{"first":"11.11.1998","query":"http://google.com/","last":"25.03.2021","times":5969502},
{"first":"11.05.2000","query":"http://vk.com/","last":"25.03.2021","times":172132}
]
astuce

Pour que les options "Texte de début" et "Texte de fin" soient disponibles dans l'Éditeur de tâches, vous devez activer "Plus d'options".

Paramètres possibles