SE::Yandex::WordStat - Scraper WordStat. Coleta de palavras-chave e estatísticas de impressões

Visão geral do scraper
Wordstat (Wordstat) - é um serviço do Yandex projetado para avaliar o interesse do usuário em vários tópicos e selecionar palavras-chave para otimização de SEO e publicidade contextual. Além disso, com a ajuda do Wordstat Yandex, é possível avaliar a sazonalidade e a dependência geográfica das consultas de pesquisa.
O scraper de palavras-chave Yandex WordStat suporta a multiplicação automática de consultas, garantindo que você obtenha o número máximo de resultados dos resultados de pesquisa. Além disso, o A-Parser pode navegar automaticamente por consultas relacionadas até uma profundidade especificada.
A funcionalidade do A-Parser permite salvar as configurações de extração de dados para uso posterior (presetes), definir agendamentos de extração de dados e muito mais. Você pode usar a multiplicação automática de consultas, a substituição de subconsultas de arquivos, a iteração de combinações alfanuméricas e listas para obter a maior quantidade possível de resultados ao realizar a extração de dados do Yandex Wordstat.
A gravação dos resultados é possível na forma e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.
Casos de uso do scraper
🔗 Extração de dados do Wordstat em profundidade
Uso do scraper Yandex WordStat para extração de dados em profundidade.
🔗 Avaliação de frequência pelo WordStat
Avaliação de frequência pelo WordStat
Contas
Para o funcionamento do scraper
SE::Yandex::WordStat são necessárias contas do Yandex. As contas podem ser registradas usando o scraper
SE::Yandex::Register ou simplesmente adicionando contas existentes ao arquivo files/SE-Yandex/accounts.txt no formato suportado.
Ou você pode ativar o registro de contas "on-the-fly".
Para trabalhar usando a autorização por sessão, é necessário que a linha com os dados esteja neste formato:
[email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}
Dados coletados
- Número de impressões para a consulta especificada
- Data de atualização das estatísticas
- Lista de todas as palavras-chave relacionadas à especificada e seu número de impressões por mês
- Lista de todas as palavras-chave adicionais que os usuários pesquisaram e seu número de impressões por mês

Recursos
- Faz a extração do número máximo de resultados fornecidos pelo wordstat - 40 páginas com 50 elementos por página
- Suporta a seleção da região de pesquisa (com subgrupos)
- Pode inserir automaticamente as palavras-chave encontradas novamente nas consultas (opção Parse to level)
- Possibilidade de selecionar várias regiões simultaneamente para avaliação
- Suporte para contorno automático de Smart captcha e possibilidade de contornar captcha gráfico usando o serviço AntiCaptcha ou qualquer outro que suporte sua API
- Seleção do tipo de dispositivo
- Possibilidade de escolher o método de autorização
- Possibilidade de registrar contas "on-the-fly"
- Suporta o trabalho com formato estendido de contas e sabe responder à pergunta secreta (se a resposta estiver em
info). E também utiliza o proxy salvo para autorização (se houver eminfo).
Opções de uso
- Avaliação da quantidade de tráfego por palavra-chave (frequência)
- Busca por novas palavras-chave de tópicos semelhantes
- Coleta de grandes bases de palavras-chave de diferentes tópicos
- Quaisquer outras opções que envolvam a extração de dados do Yandex.WordStat de uma forma ou de outra
Consultas
Como consultas, é necessário indicar as palavras-chave, exatamente como se fossem digitadas diretamente no formulário de pesquisa do Wordstat, por exemplo:
janelas moscou
"janelas moscou"
!janelas !moscou
Exemplos de saída de resultados
A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, por exemplo CSV ou JSON
Saída padrão
Formato do resultado:
$query - $totalcount, updated: $updatedate\nkeywords:\n$keys.format('$key: $count\n')\nadditional keywords:\n$search.format('$key: $count\n')
O resultado exibe a consulta original, o número de suas impressões, a data de atualização das estatísticas, a lista de palavras-chave relacionadas e suas impressões mensais, a lista de palavras-chave adicionais e suas impressões mensais:
!janelas !moscou - 10368, atualizado: 16/05/2013
keywords:
janelas moscou: 32367
janelas de plástico moscou: 8994
janelas pvc moscou: 4813
comprar janelas moscou: 2561
janelas preços moscou: 1706
moscou trabalho janelas: 1547
vagas janelas moscou: 1187
janelas de madeira moscou: 1087
serviço +de uma janela moscou: 1021
...
additional keywords:
produção de janelas pvc: 8512
janelas rehau: 15686
janelas salamander: 1576
janelas kbe: 3798
janelas kbe: 6089
janelas kbe: 3227
envidraçamento de varandas: 83216
gazebos: 471213
envidraçamento de sacadas: 26366
divisórias de escritório: 18740
instalação de janelas: 26223
Saída em tabela CSV
Formato do resultado:
[% FOREACH i IN keys;
tools.CSVline(query, i. key, i.count);
END %]
Exemplo de resultado:
scraper de sites, scraper de sites, 8055
scraper de sites, scraper de sites gratuito, 1122
scraper de sites, site oficial do scraper, 666
scraper de sites, sites scraper em nuvem, 507
scraper de sites, scraper de email +do site, 477
scraper de sites, baixar scraper de site, 434
scraper de sites, scraper de endereços de sites, 390
scraper de sites, scraper de sites online, 366
scraper de sites, turbo scraper de sites, 342
scraper de sites, site oficial turbo scraper, 309
scraper de sites, site oficial scraper em nuvem, 308
scraper de sites, scraper de sites excel, 276
scraper de sites, sliza scraper site, 259
Salvamento em formato SQL
Formato do resultado:
[% FOREACH i IN keys;
"INSERT INTO keys VALUES('" _ query _ "', '"; i.key _ "', '"; i.count _ "')\n";
END %]
Exemplo de resultado:
INSERT INTO serp VALUES('teste', 'teste', '10837937')
INSERT INTO serp VALUES('teste', 'test drive', '1164338')
INSERT INTO serp VALUES('teste', 'massa +para teste', '879980')
INSERT INTO serp VALUES('teste', 'testes online', '792560')
INSERT INTO serp VALUES('teste', 'vídeo de test drive', '550164')
INSERT INTO serp VALUES('teste', 'receita de massa', '484489')
INSERT INTO serp VALUES('teste', 'testes +com respostas', '449401')
INSERT INTO serp VALUES('teste', 'teste 2014', '427602')
INSERT INTO serp VALUES('teste', 'testes grátis', '315144')
INSERT INTO serp VALUES('teste', 'testes gratuitos', '315096')
INSERT INTO serp VALUES('teste', 'testes +para meninas', '309355')
INSERT INTO teste', 'testes +por temas', '293917')
INSERT INTO serp VALUES('teste', 'jogos de testes', '288989')
Dump de resultados em JSON
Formato geral do resultado:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.updatedate = p1.updatedate;
obj.totalcount = p1.totalcount;
obj.keys = [];
FOREACH item IN p1.keys;
obj.keys.push({
key = item.key
count = item.count
});
END;
obj.json %]
Texto inicial:
[
Texto final:
]
Exemplo de resultado:
[{
"updatedate": "12.03.2014",
"totalcount": "10837937",
"keys": [
{
"count": "10837937",
"key": "teste"
},
{
"count": "1164338",
"key": "test drive"
},
{
"count": "879980",
"key": "massa +para teste"
},
{
"count": "792560",
"key": "testes online"
},
]
}]
Veja também: Filtros de resultados
Configurações possíveis
| Parâmetro | Valor padrão | Descrição |
|---|---|---|
| Pages count | 10 | Número de páginas para extração de dados |
| Region | All | Região de pesquisa |
| Remove + from keywords | ☐ | Remover o símbolo de mais (+) das consultas encontradas |
| AntiGate preset | default | É necessário configurar previamente o scraper Util::AntiGate - indicar sua chave de acesso e outros parâmetros, após o que selecionar o presete criado aqui |
| AntiGate preset for Login | default | Presete AntiGate para login. É necessário configurar previamente o scraper Util::AntiGate com os parâmetros, após o que selecionar o presete criado aqui |
| Type | All | Seleção do tipo de dispositivo |
| Accounts | Only from "accounts.txt" | Escolha do método de trabalho com contas: Always auto register - sempre registrar automaticamente as contas "on-the-fly", é necessário selecionar um presete configurado no parâmetro SE::Yandex::Register preset. Auto register if no more in \"accounts.txt\" - primeiro são usadas as contas existentes em accounts.txt, e se elas acabarem - é usado o registro automático "on-the-fly", para o qual é necessário selecionar um presete configurado no parâmetro SE::Yandex::Register preset. Only from \"accounts.txt\" - usar apenas contas existentes em accounts.txt, e se elas acabarem - aguardar o tempo definido (parâmetro Wait new accounts in "accounts.txt") pelo surgimento de novas. Only by session_id from \"accounts.txt\" - autorização por cookies. |
| Wait new accounts in "accounts.txt" | 0 | Tempo de espera pelo surgimento de novas contas em accounts.txt |
| Remove bad accounts | Always, except wrong login/password | Remoção automática de contas "ruins": Always - sempre remover. Always, except wrong login/password - remover sempre, exceto nos casos em que o Yandex informou que o login/senha estão incorretos. O fato é que o Yandex pode fornecer tal mensagem ao banir o IP para uma conta absolutamente funcional, portanto, opcionalmente, você pode deixar tais contas para reutilização. Never - nunca remover. Independentemente da opção escolhida, em caso de erros de proxy/navegador, as contas não são removidas |
| SE::Yandex::Register preset | default | Escolha do presete de configurações para SE::Yandex::Register |
| Authorization method | HTTP | Método de autorização: HTTP - rápido, não exige muitos recursos. Chrome - lento, exige recursos, teoricamente pode prolongar a vida das contas |
| Chrome headless | ☑ | Se a opção estiver ativada, o navegador não será exibido |
| Use sessions | ☑ | Uso de sessões |
| Do not reset session if authorization passed | ☑ | Não redefinir a sessão em caso de erros se o scraper já estiver autorizado |
| Use Wordstat 2 | ☐ | Uso do Wordstat 2 |
| Wordstat 2 parse all table data | ☑ | Permite carregar imediatamente todos os 2000 resultados por consulta sem passar pela paginação |

