SE::Yandex::WordStat::ByDate - Scraper de estatísticas de impressões do Yandex WordStat por meses ou semanas

Visão geral do scraper
Wordstat é um serviço do Yandex projetado para avaliar o interesse do usuário em vários tópicos e selecionar palavras-chave para otimização de SEO e publicidade contextual. Além disso, com o Wordstat Yandex, você pode avaliar a sazonalidade e a dependência geográfica das consultas de pesquisa.
O scraper Yandex WordStat by date suporta a multiplicação automática de consultas, garantindo que você obtenha o número máximo de resultados da listagem. Além disso, o A-Parser pode navegar automaticamente por consultas relacionadas até uma profundidade especificada.
A funcionalidade do A-Parser permite salvar as configurações de extração de dados para uso futuro (presets), definir agendamentos de extração de dados e muito mais. Você pode usar a multiplicação automática de consultas, substituição de subconsultas a partir de arquivos, combinação de caracteres alfanuméricos e listas para obter a maior quantidade possível de resultados.
A gravação dos resultados é possível no formato e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exportar dados em vários formatos, incluindo JSON, SQL e CSV.
Casos de uso do scraper
🔗 Automação Wordstat bydate
Usado para armazenar informações atualizadas no banco de dados e gera um csv com dados recentes a cada execução
Contas
Para o funcionamento do scraper
SE::Yandex::WordStat::ByDate, são necessárias contas do Yandex. As contas podem ser registradas usando o scraper
SE::Yandex::Register ou simplesmente adicionando contas existentes ao arquivo files/SE-Yandex/accounts.txt no formato suportado.
Ou você pode ativar o registro de contas "on-the-fly".
Dados coletados
- Estatísticas de palavras-chave por meses ou semanas
- Data
- Valor absoluto
- Valor relativo

Recursos
- Suporta a seleção da região de pesquisa (com subgrupos)
- Possibilidade de selecionar várias regiões simultaneamente para avaliação
- Suporte para contorno automático de Smart captcha e possibilidade de contornar captchas gráficos usando o serviço AntiCaptcha ou qualquer outro que suporte sua API
- Seleção do tipo de dispositivo
- Possibilidade de escolher o método de autorização
- Possibilidade de registrar contas "on-the-fly"
- Suporta o trabalho com formato estendido de contas e sabe responder à pergunta secreta (se a resposta estiver em
info). Também utiliza o proxy salvo para autorização (se houver eminfo).
Casos de uso
- Estimativa do volume de tráfego por palavra-chave
- Identificação de palavras-chave sazonais
Consultas
Como consultas, é necessário indicar palavras-chave, exatamente como se fossem digitadas diretamente no formulário de pesquisa do Wordstat, por exemplo:
test
Exemplos de saída de resultados
O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, por exemplo, CSV ou JSON
Saída padrão
Formato do resultado:
Views:\n$views.format('$date $count $relcount\n')
O resultado exibe estatísticas de palavras-chave por mês e por semana:
Monthly:
2011-09-30 3010832 0.0008903808
2011-10-31 681432 0.0001825883
2011-11-30 628532 0.0001575008
2011-12-31 629072 0.0001495699
2012-01-31 561206 0.0001300651
2012-02-29 572039 0.0001290000
2012-03-31 614897 0.0001225754
2012-04-30 520433 0.0001185340
2012-05-31 521967 0.0001235327
2012-06-30 502568 0.0001299958
...
Weekly:
2012-09-16 118715 0.0001222877
2012-09-23 120799 0.0001211773
2012-09-30 137809 0.0001365837
2012-10-07 133929 0.0001313643
2012-10-14 140373 0.0001293922
2012-10-21 136014 0.0001242209
2012-10-28 148350 0.0001293328
2012-11-04 139556 0.0001232566
2012-11-11 154830 0.0001314057
2012-11-18 136458 0.0001147489
2012-11-25 149463 0.0001261401
2012-12-02 144724 0.0001197564
2012-12-09 149142 0.0001212195
2012-12-16 162864 0.0001298181
Saída em tabela CSV
Formato do resultado:
[% FOREACH i IN views;
tools.CSVline(query, i.count, i.date);
END %]
Exemplo de resultado:
"teste",9661734,2012-03-31
"teste",8567243,2012-04-30
"teste",9028986,2012-05-31
"teste",6082099,2012-06-30
"teste",5531950,2012-07-31
"teste",5214663,2012-08-31
"teste",6603865,2012-09-30
"teste",9127457,2012-10-31
"teste",9238652,2012-11-30
Salvando em formato SQL
Formato do resultado:
[% FOREACH i IN views;
"INSERT INTO views VALUES('" _ query _ "', '"; i.count _ "', '"; i.relcount _ "', '"; i.date _ "')\n";
END %]
Exemplo de resultado:
INSERT INTO serp VALUES('teste', '9661734', '0.0019259985', '2012-03-31')
INSERT INTO serp VALUES('teste', '8567243', '0.0019512785', '2012-04-30')
INSERT INTO serp VALUES('teste', '9028986', '0.0021368683', '2012-05-31')
INSERT INTO serp VALUES('teste', '6082099', '0.0015732140', '2012-06-30')
INSERT INTO serp VALUES('teste', '5531950', '0.0013160071', '2012-07-31')
INSERT INTO serp VALUES('teste', '5214663', '0.0013327945', '2012-08-31')
INSERT INTO serp VALUES('teste', '6603865', '0.0015936909', '2012-09-30')
INSERT INTO serp VALUES('teste', '9127457', '0.0018740506', '2012-10-31')
INSERT INTO serp VALUES('teste', '9238652', '0.0018308715', '2012-11-30')
Dump de resultados em JSON
Formato geral do resultado:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.views = [];
FOREACH item IN p1.views;
obj.views.push({
date = item.date
relcount = item.relcount
count = item.count
});
END;
obj.json %]
Texto inicial:
[
Texto final:
]
Exemplo de resultado:
[{
"views": [
{
"count": "9661734",
"date": "2012-03-31",
"relcount": "0.0019259985"
},
{
"count": "8567243",
"date": "2012-04-30",
"relcount": "0.0019512785"
},
{
"count": "9028986",
"date": "2012-05-31",
"relcount": "0.0021368683"
}
]
}]
Veja também: Filtros de resultados
Configurações possíveis
| Parâmetro | Valor padrão | Descrição |
|---|---|---|
| Period | Monthly | Escolha do período (Monthly/Weekly/Daily, Daily funciona apenas com a opção Use Wordstat 2 ativada) |
| Start date | | Indicação de a partir de qual data realizar a pesquisa. Funciona apenas com a opção Use Wordstat 2 ativada. É obrigatório considerar as regras de indicação de data |
| End date | | Indicação até qual data realizar a pesquisa. Funciona apenas com a opção Use Wordstat 2 ativada. É obrigatório considerar as regras de indicação de data |
| Region | All | Região de pesquisa |
| AntiGate preset | default | É necessário configurar previamente o scraper Util::AntiGate - indicar sua chave de acesso e outros parâmetros, e então selecionar o preset criado aqui |
| AntiGate preset for Login | default | Preset AntiGate para login. É necessário configurar previamente o scraper Util::AntiGate com os parâmetros, e então selecionar o preset criado aqui |
| Type | All | Escolha do tipo de dispositivo |
| Accounts | Only from "accounts.txt" | Escolha do método de trabalho com contas: Always auto register - sempre registrar contas automaticamente "on-the-fly", requer selecionar um preset configurado no parâmetro SE::Yandex::Register preset. Auto register if no more in \"accounts.txt\" - primeiro são usadas contas existentes de accounts.txt e, se acabarem, é usado o registro automático "on-the-fly", para o qual deve-se selecionar um preset configurado no parâmetro SE::Yandex::Register preset. Only from \"accounts.txt\" - usar apenas contas existentes de accounts.txt e, se acabarem, aguardar o tempo definido (parâmetro Wait new accounts in "accounts.txt") pelo surgimento de novas |
| Wait new accounts in "accounts.txt" | 0 | Tempo de espera pelo surgimento de novas contas em accounts.txt |
| Remove bad accounts | Always, except wrong login/password | Exclusão automática de contas "ruins": Always - sempre excluir. Always, except wrong login/password - excluir sempre, exceto quando o Yandex informar que o login/senha estão incorretos. O fato é que o Yandex pode retornar essa mensagem em caso de banimento de IP para uma conta perfeitamente funcional, portanto, opcionalmente, pode-se manter tais contas para reuso. Never - nunca excluir. Independentemente da opção escolhida, em erros de proxy/navegador as contas não são excluídas |
| SE::Yandex::Register preset | default | Seleção do preset de configurações para SE::Yandex::Register |
| Authorization method | HTTP | Método de autorização: HTTP - rápido, pouco exigente em recursos. Chrome - lento, exigente em recursos, teoricamente pode prolongar a vida das contas |
| Chrome headless | ☑ | Se a opção estiver ativada, o navegador não será exibido |
| Use sessions | ☑ | Uso de sessões |
| Do not reset session if authorization passed | ☑ | Não redefinir a sessão em erros se o scraper já estiver autorizado |
| Use Wordstat 2 | ☐ | Uso do Wordstat 2 |
| Wordstat 2 parse all table data | ☑ | Permite baixar imediatamente todos os 2000 resultados por consulta sem passar pela paginação |
