Pular para o conteúdo principal

Rank::Archive - Scraper de data da primeira e última indexação de site no Web Archive

Visão geral do scraper

Visão geral do scraperRank::ArchiveRank::Archive – Scraper do Web Archive, determina a data do primeiro e do último cache, bem como o número de cópias salvas do site.

A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper Rank::Archive para uso futuro (presettings), definir cronogramas de extração de dados e muito mais.

A gravação dos resultados é possível no formato e estrutura que você desejar, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Dados coletados

  • Data do primeiro cache
  • Data do último cache
  • Número de cópias salvas do site
Dados coletados

Casos de uso

  • Verificar a existência de uma cópia do site no Web Archive, bem como as datas de indexação da primeira e última cópia
  • Avaliação de domínios: um grande número de cópias do site no Web Archive pode indicar um alto tráfego no site

Consultas

Como consultas, é necessário indicar o domínio do site pesquisado, por exemplo:

a-parser.com
www.yahoo.com
google.com
vk.com
youtube.com

Opções de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em formato livre, bem como estruturado, como CSV ou JSON

Exibição padrão

Formato do resultado:

$query: $first - $last ($times times)\n

O resultado exibe o site, as datas de indexação da primeira e última cópia e o número de cópias salvas do site:

vk.com: 11.05.2000 - 21.05.2014(8965 times)  
youtube.com: 28.04.2005 - 21.05.2014(28150 times)
a-parser.com: 16.03.2012 - 17.05.2014(56 times)
google.com: 11.11.1998 - 21.05.2014(34575 times)
www.yahoo.com: 17.10.1996 - 20.05.2014(28537 times)

Salvando em formato SQL

Formato do resultado:

[% "INSERT INTO archive VALUES('" _ query _ "', '" _ first _ "', '" _ last _ "', '" _ times _ "')\n" %]

Exemplo de resultado:

INSERT INTO archive VALUES('http://a-parser.com/', '16.03.2012', '16.01.2021', '290')
INSERT INTO archive VALUES('http://yandex.ru/', '06.12.1998', '25.03.2021', '141421')
INSERT INTO archive VALUES('http://facebook.com/', '12.12.1998', '25.03.2021', '4877156')
INSERT INTO archive VALUES('http://vk.com/', '11.05.2000', '25.03.2021', '172132')
INSERT INTO archive VALUES('http://google.com/', '11.11.1998', '25.03.2021', '5969502')
INSERT INTO archive VALUES('http://youtube.com/', '28.04.2005', '25.03.2021', '2309673')

Dump de resultados em JSON

Formato geral do resultado:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.first = p1.first;
obj.last = p1.last;
obj.times = p1.times;

obj.json %]

Texto inicial:

[

Texto final:

]

Exemplo de resultado:

[
{"first":"12.12.1998","query":"http://facebook.com/","last":"25.03.2021","times":4877156},
{"first":"06.12.1998","query":"http://yandex.ru/","last":"25.03.2021","times":141421},
{"first":"16.03.2012","query":"http://a-parser.com/","last":"16.01.2021","times":290},
{"first":"28.04.2005","query":"http://youtube.com/","last":"25.03.2021","times":2309673},
{"first":"11.11.1998","query":"http://google.com/","last":"25.03.2021","times":5969502},
{"first":"11.05.2000","query":"http://vk.com/","last":"25.03.2021","times":172132}
]
dica

Para que as opções "Prepend text" e "Append text" estejam disponíveis no Editor de Tarefas, é necessário ativar "More options".

Configurações possíveis