Pular para o conteúdo principal

Check::BackLink - verifica a presença de link(s) em uma base de links

Visão geral do scraper

Visão geral do scraper: velocidade de operação

O scraper permite verificar backlinks, especificamente links em páginas de sites que apontam para o seu site.

A funcionalidade do A-Parser permite salvar as configurações de extração de dados para uso futuro (presets), definir agendamentos de extração de dados e muito mais.

A gravação dos resultados é possível na forma e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Casos de uso do scraper

Dados coletados

  • Soma de links externos e internos na página
  • Verifica a presença do link na página especificada 0 e 1
    • 0 - significa que não há correspondência exata do backlink
    • 1 - significa que há uma correspondência exata do backlink
  • Bloqueio da página especificada para visualização via robots.txt - 0 e 1
  • Bloqueio de indexação da página via metatag robots com o atributo noindex, bem como bloqueio de seguimento do link via atributo nofollow
  • Bloqueio de seguimento do link via atributo rel=nofollow

Dados adicionais que podem ser obtidos:

  • Quantidade de links externos e internos na página
  • Lista de todos os links externos e internos na página

Recursos

  • Verifica a presença do link na página especificada, com a possibilidade de buscar o link sem especificar o esquema por ocorrência de string
  • Verifica se a página está fechada para indexação via robots.txt
  • Verifica a metatag robots para a presença dos atributos noindex e nofollow
  • Verifica a presença de rel=nofollow no link encontrado
  • Busca de link por ocorrência de string
  • Possibilidade de especificar seu próprio cabeçalho User-Agent

Opções de uso

  • Verificação da colocação de seus links em páginas especificadas
  • Busca de links exibidos apenas para um determinado User-Agent (por exemplo, para o bot do Google)

Consultas

Como consultas, é necessário indicar a página onde buscar o link e, após um espaço, indicar o link procurado:

https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/

Substituições de consultas

Você pode usar macros integradas para substituição automática de subconsultas a partir de arquivos, por exemplo, queremos verificar sites/site por uma base de páginas, indicamos a lista de páginas onde buscar os links:

https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/

No formato de consultas, indicaremos a macro de substituição de consultas adicionais do arquivo backlinks.txt, este método permite verificar uma base de sites para a presença de uma lista de links de um arquivo:

$query {subs:backlinks}

Esta macro criará tantas consultas adicionais quantas estiverem no arquivo para cada consulta de pesquisa original, o que resultará em [número de consultas originais (links de páginas)] x [número de consultas no arquivo backlinks] = [número total de consultas] como resultado da execução da macro.

Também é possível indicar o protocolo no formato de consultas, para que se possa usar apenas domínios como consultas:

http://$query 

Este formato prefixará cada consulta com http://.

Opções de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que lhe permite exibir resultados em forma arbitrária, bem como estruturada, por exemplo, CSV ou JSON

Exibição padrão

Formato do resultado:

$backlink - $checklink: $exists, blocked by robots.txt: $robots\n

Exemplo de resultado, no qual é exibido o backlink, o link para a página onde ocorre a busca do backlink, a presença ou ausência do backlink, e a verificação da página para bloqueio no arquivo robots.txt:

http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0

Exibição da presença de backlinks e parâmetros adicionais para análise de backlinks e páginas com backlinks em tabela CSV

A utilidade integrada $tools.CSVLine permite criar documentos tabulares corretos, prontos para importação no Excel ou Google Planilhas.

O resultado da variável $actualchecklink existe apenas se houver um backlink na página; se não houver backlink, o resultado desta variável será none. $actualbacklink e $actualchecklink são os links reais após o redirecionamento.

Formato do resultado:

[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]

Nome do arquivo:

$datefile.format().csv

Texto inicial:

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

Exemplo de resultado:

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Baixar exemplo

Como importar um exemplo para o A-Parser

eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=

dica

No Formato de resultados é aplicado o motor de modelos Template Toolkit.

O que é o formato de resultados.

No nome do arquivo de resultados, basta alterar a extensão do arquivo para csv.

Para que a opção "Prepend text" esteja disponível no Editor de tarefas, é necessário ativar "More options". No "Prepend text", escrevemos os nomes das colunas separados por vírgula e deixamos a segunda linha vazia.

Dump de links externos da página do backlink em JSON

Formato do resultado:

[% data = {}; 
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]

Texto inicial:

[% firstString = 1 %][

Texto final:

]

Exemplo de resultado:

[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]

Processamento de resultados

O A-Parser permite processar resultados diretamente durante a extração de dados; nesta seção, apresentamos os casos mais populares para o scraper Check::BackLink

Adicionar um filtro e, na lista suspensa, selecionar a variável de confiança $exists - Link exists. Selecionar o tipo: String equal. Em seguida, no campo String, inserir o valor que corresponde à presença do backlink 1. Com este filtro, você poderá exibir todos os resultados com a presença de backlink.

Adicionar o Result Builders (Construtor de resultados) e, na lista suspensa, selecionar a fonte: $p1.extlinks.$i.link - Link. Selecionar o tipo: Extract Top Domain. Assim obtemos os domínios dos links externos.

Exemplo de uso de filtro e Construtor de resultados
Baixar exemplo

Como importar um exemplo para o A-Parser

eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
dica

O construtor de resultados pode ser adicionado quantas vezes você precisar.

Veja também:

Configurações possíveis

Suporta todas as configurações do scraper HTML::LinkExtractorHTML::LinkExtractor, além de adicionalmente:

Nome do parâmetroValor padrãoDescrição
Check robots.txtDefine se deve verificar a proibição de indexação da página via robots.txt
Match link by substringDefine se deve realizar a busca do link por ocorrência de string. Pode-se verificar links sem especificar o esquema, por exemplo, pelo domínio sem especificar o protocolo http