SE::Rambler - scraper de resultados de busca do Rambler

Visão geral do scraper
Scraper de resultados de busca do Rambler. Graças ao scraper Rambler, você poderá obter grandes bases de links prontos para uso posterior. Você pode usar consultas da mesma forma que as digita na barra de pesquisa do Rambler, incluindo operadores de pesquisa (site, ip, etc.).
A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper Rambler para uso futuro (presetes), definir agendamentos de extração de dados e muito mais. Você pode usar a multiplicação automática de consultas, substituição de subconsultas a partir de arquivos, combinação de caracteres alfanuméricos e listas para obter o máximo possível de resultados.
O salvamento dos resultados é possível no formato e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.
Dados coletados
- Quantidade de resultados na busca
- Links, âncoras e snippets dos resultados
- Lista de palavras-chave relacionadas (hints)

Recursos
- Suporte a operadores de pesquisa do Rambler (url:, site:, inurl:, host:, rhost:, domain:.)
- Faz a extração de até 25 páginas, de 10 a 50 resultados por página
- Extrai palavras-chave relacionadas ($hints)
- Possibilidade de usar serviços de resolução para contornar captchas
- Escolha do dispositivo de exibição: desktop comum, Android móvel ou iOS móvel
Casos de uso
- Coleta de bases de links
- Avaliação de concorrência para palavras-chave
- Busca de backlinks (menções) de sites
- Todos os casos onde é necessário extrair dados dos resultados de busca do Rambler
Consultas
Indique as consultas da mesma forma que na busca do Rambler. Por exemplo, se precisar apenas de links de um site. Digite no campo de consultas:
"comprar portas" site:http://kp.ru
Substituições de consultas
Você pode usar macros integrados para multiplicar consultas, por exemplo, se quisermos obter uma base muito grande de fóruns, indicaremos algumas consultas principais em diferentes idiomas:
forum
fórum
foro
论坛
No formato de consultas, indicaremos a permutação de caracteres de a até zzzz, este método permite rotacionar ao máximo os resultados de busca e obter muitos novos resultados únicos:
$query {az:a:zzzz}
Este macro criará 475254 consultas adicionais para cada consulta de pesquisa inicial, o que totalizará 4 x 475254 = 1901016 consultas de pesquisa, um número impressionante, mas que não é problema para o A-Parser. Com uma velocidade de 2000 consultas por minuto, tal tarefa será processada em apenas 16 horas.
Uso de operadores
Você pode usar operadores de pesquisa no formato da consulta, desta forma ele será automaticamente adicionado a cada consulta da sua lista:
site:$query
Opções de exibição de resultados
O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, como CSV ou JSON
Exportação de lista de links
Links + âncoras + snippets com exibição de posição
Exibição de links, âncoras e snippets em tabela CSV
Salvamento de palavras-chave relacionadas
Formato do resultado:
$hints.format('$hint\n')
Exemplo de resultado:
habrahabr
habr
habrahabr ru
xabra
livebusiness
eureka
contador eletrônico
ilha elba
elba contador eletrônico
habrahabr
...
Salvamento em formato SQL
Dump de resultados em JSON
Processamento de resultados
O A-Parser permite processar resultados diretamente durante a extração de dados, nesta seção apresentamos os casos mais populares para o scraper Rambler
Desduplicação de links
Desduplicação de links por domínio
Extração de domínios
Remoção de tags de âncoras e snippets
Filtragem de links por ocorrência
Configurações possíveis
| Nome do parâmetro | Valor padrão | Descrição |
|---|---|---|
| Device | Desktop | Escolha do dispositivo de exibição: desktop comum, Android móvel ou iOS móvel |
| Pages count | 5 | Quantidade de páginas para extração de dados (de 1 a 25) |
| Links per page | 10 | Quantidade de resultados por página (10/15/30/50) |
| Rambler region ID | Possibilidade de definir região. É necessário indicar o ID da região. Como descobrir o ID da região necessária - descrito aqui | |
| Sort | Sites by relevance | Escolha da opção de ordenação dos resultados |
| Results filtering | Moderate | Escolha da opção de filtragem dos resultados |
| Results language | Any language | Escolha do idioma de pesquisa dos resultados |
| Serp time | Anytime | Escolha do período dos resultados |
| Results type | Any format | Escolha do tipo de resultados (mime type) |
| Exact match | ☐ | Correspondência exata à consulta |
| Disable autocorrect | ☐ | Desativa a autocorreção, permite extrair dados da busca exatamente pela consulta indicada |
| Use sessions | ☑ | Salva sessões boas, o que permite extrair dados ainda mais rápido, obtendo um menor número de erros |
| AntiGate preset | default | Define se deve usar Util::AntiGate para contornar captchas |
