Pular para o conteúdo principal

SE::Yandex::WordStat::ByDate - Scraper de estatísticas de impressões do Yandex WordStat por meses ou semanas

Yandex WordStat: ByDate

Visão geral do scraper

Wordstat é um serviço do Yandex projetado para avaliar o interesse do usuário em vários tópicos e selecionar palavras-chave para otimização de SEO e publicidade contextual. Além disso, com o Wordstat Yandex, você pode avaliar a sazonalidade e a dependência geográfica das consultas de pesquisa.

O scraper Yandex WordStat by date suporta a multiplicação automática de consultas, garantindo que você obtenha o número máximo de resultados da listagem. Além disso, o A-Parser pode navegar automaticamente por consultas relacionadas até uma profundidade especificada.

A funcionalidade do A-Parser permite salvar as configurações de extração de dados para uso futuro (presets), definir agendamentos de extração de dados e muito mais. Você pode usar a multiplicação automática de consultas, substituição de subconsultas a partir de arquivos, combinação de caracteres alfanuméricos e listas para obter a maior quantidade possível de resultados.

A gravação dos resultados é possível no formato e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exportar dados em vários formatos, incluindo JSON, SQL e CSV.

Casos de uso do scraper

Contas

Para o funcionamento do scraper SE::Yandex::WordStat::ByDateSE::Yandex::WordStat::ByDate, são necessárias contas do Yandex. As contas podem ser registradas usando o scraper SE::Yandex::RegisterSE::Yandex::Register ou simplesmente adicionando contas existentes ao arquivo files/SE-Yandex/accounts.txt no formato suportado.

Ou você pode ativar o registro de contas "on-the-fly".

Dados coletados

  • Estatísticas de palavras-chave por meses ou semanas
  • Data
  • Valor absoluto
  • Valor relativo
Dados coletados

Recursos

  • Suporta a seleção da região de pesquisa (com subgrupos)
  • Possibilidade de selecionar várias regiões simultaneamente para avaliação
  • Suporte para contorno automático de Smart captcha e possibilidade de contornar captchas gráficos usando o serviço AntiCaptcha ou qualquer outro que suporte sua API
  • Seleção do tipo de dispositivo
  • Possibilidade de escolher o método de autorização
  • Possibilidade de registrar contas "on-the-fly"
  • Suporta o trabalho com formato estendido de contas e sabe responder à pergunta secreta (se a resposta estiver em info). Também utiliza o proxy salvo para autorização (se houver em info).

Casos de uso

  • Estimativa do volume de tráfego por palavra-chave
  • Identificação de palavras-chave sazonais

Consultas

Como consultas, é necessário indicar palavras-chave, exatamente como se fossem digitadas diretamente no formulário de pesquisa do Wordstat, por exemplo:

test

Exemplos de saída de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, por exemplo, CSV ou JSON

Saída padrão

Formato do resultado:

Views:\n$views.format('$date $count $relcount\n')

O resultado exibe estatísticas de palavras-chave por mês e por semana:

Monthly:  
2011-09-30 3010832 0.0008903808
2011-10-31 681432 0.0001825883
2011-11-30 628532 0.0001575008
2011-12-31 629072 0.0001495699
2012-01-31 561206 0.0001300651
2012-02-29 572039 0.0001290000
2012-03-31 614897 0.0001225754
2012-04-30 520433 0.0001185340
2012-05-31 521967 0.0001235327
2012-06-30 502568 0.0001299958
...
Weekly:
2012-09-16 118715 0.0001222877
2012-09-23 120799 0.0001211773
2012-09-30 137809 0.0001365837
2012-10-07 133929 0.0001313643
2012-10-14 140373 0.0001293922
2012-10-21 136014 0.0001242209
2012-10-28 148350 0.0001293328
2012-11-04 139556 0.0001232566
2012-11-11 154830 0.0001314057
2012-11-18 136458 0.0001147489
2012-11-25 149463 0.0001261401
2012-12-02 144724 0.0001197564
2012-12-09 149142 0.0001212195
2012-12-16 162864 0.0001298181

Saída em tabela CSV

Formato do resultado:

[% FOREACH i IN views;
tools.CSVline(query, i.count, i.date);
END %]

Exemplo de resultado:

"teste",9661734,2012-03-31
"teste",8567243,2012-04-30
"teste",9028986,2012-05-31
"teste",6082099,2012-06-30
"teste",5531950,2012-07-31
"teste",5214663,2012-08-31
"teste",6603865,2012-09-30
"teste",9127457,2012-10-31
"teste",9238652,2012-11-30

Salvando em formato SQL

Formato do resultado:

[% FOREACH i IN views;
"INSERT INTO views VALUES('" _ query _ "', '"; i.count _ "', '"; i.relcount _ "', '"; i.date _ "')\n";
END %]

Exemplo de resultado:

INSERT INTO serp VALUES('teste', '9661734', '0.0019259985', '2012-03-31')
INSERT INTO serp VALUES('teste', '8567243', '0.0019512785', '2012-04-30')
INSERT INTO serp VALUES('teste', '9028986', '0.0021368683', '2012-05-31')
INSERT INTO serp VALUES('teste', '6082099', '0.0015732140', '2012-06-30')
INSERT INTO serp VALUES('teste', '5531950', '0.0013160071', '2012-07-31')
INSERT INTO serp VALUES('teste', '5214663', '0.0013327945', '2012-08-31')
INSERT INTO serp VALUES('teste', '6603865', '0.0015936909', '2012-09-30')
INSERT INTO serp VALUES('teste', '9127457', '0.0018740506', '2012-10-31')
INSERT INTO serp VALUES('teste', '9238652', '0.0018308715', '2012-11-30')

Dump de resultados em JSON

Formato geral do resultado:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.views = [];

FOREACH item IN p1.views;
obj.views.push({
date = item.date
relcount = item.relcount
count = item.count
});
END;

obj.json %]

Texto inicial:

[

Texto final:

]

Exemplo de resultado:

[{
"views": [
{
"count": "9661734",
"date": "2012-03-31",
"relcount": "0.0019259985"
},
{
"count": "8567243",
"date": "2012-04-30",
"relcount": "0.0019512785"
},
{
"count": "9028986",
"date": "2012-05-31",
"relcount": "0.0021368683"
}
]
}]
dica

Veja também: Filtros de resultados

Configurações possíveis

ParâmetroValor padrãoDescrição
PeriodMonthlyEscolha do período (Monthly/Weekly/Daily, Daily funciona apenas com a opção Use Wordstat 2 ativada)
Start date Indicação de a partir de qual data realizar a pesquisa. Funciona apenas com a opção Use Wordstat 2 ativada. É obrigatório considerar as regras de indicação de data
End date Indicação até qual data realizar a pesquisa. Funciona apenas com a opção Use Wordstat 2 ativada. É obrigatório considerar as regras de indicação de data
RegionAllRegião de pesquisa
AntiGate presetdefaultÉ necessário configurar previamente o scraper Util::AntiGateUtil::AntiGate - indicar sua chave de acesso e outros parâmetros, e então selecionar o preset criado aqui
AntiGate preset for LogindefaultPreset AntiGate para login. É necessário configurar previamente o scraper Util::AntiGateUtil::AntiGate com os parâmetros, e então selecionar o preset criado aqui
TypeAllEscolha do tipo de dispositivo
AccountsOnly from "accounts.txt"Escolha do método de trabalho com contas: Always auto register - sempre registrar contas automaticamente "on-the-fly", requer selecionar um preset configurado no parâmetro SE::Yandex::Register preset. Auto register if no more in \"accounts.txt\" - primeiro são usadas contas existentes de accounts.txt e, se acabarem, é usado o registro automático "on-the-fly", para o qual deve-se selecionar um preset configurado no parâmetro SE::Yandex::Register preset. Only from \"accounts.txt\" - usar apenas contas existentes de accounts.txt e, se acabarem, aguardar o tempo definido (parâmetro Wait new accounts in "accounts.txt") pelo surgimento de novas
Wait new accounts in "accounts.txt"0Tempo de espera pelo surgimento de novas contas em accounts.txt
Remove bad accountsAlways, except wrong login/passwordExclusão automática de contas "ruins": Always - sempre excluir. Always, except wrong login/password - excluir sempre, exceto quando o Yandex informar que o login/senha estão incorretos. O fato é que o Yandex pode retornar essa mensagem em caso de banimento de IP para uma conta perfeitamente funcional, portanto, opcionalmente, pode-se manter tais contas para reuso. Never - nunca excluir. Independentemente da opção escolhida, em erros de proxy/navegador as contas não são excluídas
SE::Yandex::Register presetdefaultSeleção do preset de configurações para SE::Yandex::RegisterSE::Yandex::Register
Authorization methodHTTPMétodo de autorização: HTTP - rápido, pouco exigente em recursos. Chrome - lento, exigente em recursos, teoricamente pode prolongar a vida das contas
Chrome headlessSe a opção estiver ativada, o navegador não será exibido
Use sessionsUso de sessões
Do not reset session if authorization passedNão redefinir a sessão em erros se o scraper já estiver autorizado
Use Wordstat 2Uso do Wordstat 2
Wordstat 2 parse all table dataPermite baixar imediatamente todos os 2000 resultados por consulta sem passar pela paginação