Pular para o conteúdo principal

SE::Yandex::SQI - Verificação do Índice de Qualidade do Site no Yandex

Visão geral do scraper

Visão geral do scraperSE::Yandex::SQISE::Yandex::SQI – verificação do índice de qualidade do site no Yandex. Scraper incrivelmente rápido, velocidade de operação de 3000-7000 consultas por minuto.

Você pode usar a propagação automática de consultas, substituição de subconsultas de arquivos, combinação de caracteres alfanuméricos e listas para obter o máximo de resultados possível. Usando a filtragem de resultados, você pode limpar imediatamente o resultado, removendo todo o lixo desnecessário (usando palavras negativas).

A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper SE::Yandex::SQI para uso posterior (presets), definir agendamentos de extração de dados e muito mais.

A gravação dos resultados é possível na forma e estrutura que você necessita, graças ao poderoso modelador integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Dados coletados

  • Índice de Qualidade do Site (Yandex SQI)
  • Dados sobre a presença de selos no site (1 - selo obtido, 0 - sem selo):
    • Escolha dos usuários
    • Site popular
    • Conexão segura
    • Páginas Turbo
    • Se o site é oficial
  • Para os selos "Escolha dos usuários" e "Site popular", é possível obter o grau de prontidão para receber o selo como um valor intermediário de 0 a 1, por exemplo, 0.4.
  • Número de avaliações, nota e classificação
  • Classificação da loja na busca por produtos e classificação da loja no Yandex Market (se esses dados estiverem disponíveis para o site pesquisado)

Variantes de uso

  • Avaliação da utilidade do site do ponto de vista do Yandex
  • Coleta de títulos

Consultas

Como consultas, é necessário indicar o domínio do site pesquisado. Pode ser indicado com ou sem o protocolo, por exemplo:

yandex.ru 
google.com
vk.com
facebook.com
https://a-parser.com

Variantes de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao modelador integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, como CSV ou JSON

Exibição padrão

Formato do resultado:

$query: $sqi\n

Exemplo de resultado, no qual é exibida a consulta inicial e seu SQI:

facebook.com: 130000  
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000

Se o SQI para o domínio não estiver disponível, o resultado será -1.

Exibição em tabela CSV

Formato do resultado:

[% tools.CSVline(query, sqi, rating); %]

Nome do arquivo:

$datefile.format().csv

Texto inicial:

Domínio,Classificação,Autor,Preço

dica

Para que a opção "Prepend text" esteja disponível no Editor de Tarefas, é necessário ativar "More options". No "Prepend text", escrevemos os nomes das colunas separados por vírgula e deixamos a segunda linha vazia.

Salvamento em formato SQL

Formato do resultado:

[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]

Exemplo de resultado:

INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')

Dump de resultados em JSON

Formato geral do resultado:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;

obj.json %]

Texto inicial:

[

Texto final:

]

Exemplo de resultado:

[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
dica

Para que as opções "Prepend text" e "Append text" estejam disponíveis no Editor de Tarefas, é necessário ativar "More options".

Configurações possíveis

ParâmetroValor padrãoDescrição
AntiGate presetdefaultEscolha do preset Util::AntiGateUtil::AntiGate, mais detalhes sobre a configuração aqui
AntiGate preset for old captchadefaultSemelhante ao AntiGate preset, mas usado apenas para captchas comuns (antigos, na forma de uma única imagem). Se nenhum preset for selecionado aqui, o preset selecionado em AntiGate preset será usado para esses captchas.
Experimental img captcha max count5Número máximo de tentativas de imagens de captcha repetidas por tentativa
Preffered captcha typeClickEscolha do tipo de captcha preferido: Click ou Puzzle
Use sessionsSalva sessões boas, o que permite extrair dados ainda mais rápido, obtendo menos erros