Rank::Archive - Scraper de date de première et dernière mise en cache d'un site dans le Web Archive
Présentation du scraper

Rank::Archive – scraper de Web Archive, détermine la date de la première et de la dernière mise en cache, ainsi que le nombre de copies sauvegardées du site.La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte du scraper Rank::Archive pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore.
La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées
- Date de la première mise en cache
- Date de la dernière mise en cache
- Nombre de copies sauvegardées du site

Cas d'utilisation
- Vérification de la présence d'une copie du site dans le Web Archive, ainsi que des dates d'indexation de la première et de la dernière copie
- Évaluation des domaines : un grand nombre de copies du site dans le Web Archive peut indiquer un trafic important sur le site
Requêtes
Comme requêtes, il est nécessaire d'indiquer le domaine du site recherché, par exemple :
a-parser.com
www.yahoo.com
google.com
vk.com
youtube.com
Variantes d'affichage des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON
Affichage par défaut
Format du résultat :
$query: $first - $last ($times times)\n
Le résultat affiche le site, les dates d'indexation de la première et de la dernière copie et le nombre de copies sauvegardées du site :
vk.com: 11.05.2000 - 21.05.2014(8965 times)
youtube.com: 28.04.2005 - 21.05.2014(28150 times)
a-parser.com: 16.03.2012 - 17.05.2014(56 times)
google.com: 11.11.1998 - 21.05.2014(34575 times)
www.yahoo.com: 17.10.1996 - 20.05.2014(28537 times)
Sauvegarde au format SQL
Format du résultat :
[% "INSERT INTO archive VALUES('" _ query _ "', '" _ first _ "', '" _ last _ "', '" _ times _ "')\n" %]
Exemple de résultat :
INSERT INTO archive VALUES('http://a-parser.com/', '16.03.2012', '16.01.2021', '290')
INSERT INTO archive VALUES('http://yandex.ru/', '06.12.1998', '25.03.2021', '141421')
INSERT INTO archive VALUES('http://facebook.com/', '12.12.1998', '25.03.2021', '4877156')
INSERT INTO archive VALUES('http://vk.com/', '11.05.2000', '25.03.2021', '172132')
INSERT INTO archive VALUES('http://google.com/', '11.11.1998', '25.03.2021', '5969502')
INSERT INTO archive VALUES('http://youtube.com/', '28.04.2005', '25.03.2021', '2309673')
Dump des résultats en JSON
Format de sortie general:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.first = p1.first;
obj.last = p1.last;
obj.times = p1.times;
obj.json %]
Texte initial:
[
Texte final:
]
Exemple de résultat :
[
{"first":"12.12.1998","query":"http://facebook.com/","last":"25.03.2021","times":4877156},
{"first":"06.12.1998","query":"http://yandex.ru/","last":"25.03.2021","times":141421},
{"first":"16.03.2012","query":"http://a-parser.com/","last":"16.01.2021","times":290},
{"first":"28.04.2005","query":"http://youtube.com/","last":"25.03.2021","times":2309673},
{"first":"11.11.1998","query":"http://google.com/","last":"25.03.2021","times":5969502},
{"first":"11.05.2000","query":"http://vk.com/","last":"25.03.2021","times":172132}
]
Pour que les options "Texte de début" et "Texte de fin" soient disponibles dans l'Éditeur de tâches, vous devez activer "Plus d'options".