SE::Bing - Scraper de resultados de busca do Bing

Visão geral do scraper
Scraper de resultados de busca do Bing. Graças ao scraper SE::Bing, você poderá obter enormes bases de links prontos para uso posterior. Você pode usar consultas da mesma forma que as digita na barra de pesquisa do Bing, incluindo operadores de pesquisa (contains, intitle, language, site, etc.). Mais detalhes na página oficial Advanced search keywords.
A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper Bing para uso futuro (presetes), definir agendamentos de extração de dados e muito mais. Você pode usar a multiplicação automática de consultas, substituição de subconsultas a partir de arquivos, combinação de caracteres alfanuméricos e listas para obter a maior quantidade possível de resultados.
A preservação dos resultados é possível no formato e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.
Casos de uso do scraper
🔗 Extração de dados de resultados de busca do Bing
Extração de dados do Bing com multiplicação automática de consultas (Parse all results)
🔗 Extração de dados do top 10 e conteúdo de tags
Extração de dados em múltiplos níveis. Extraímos o top 10 e o conteúdo das tags title e description para esses sites
🔗 Scraper JS baseado no scraper Bing
Criação de scrapers JS. Obtenção de resultados a partir de um scraper padrão
🔗 Extração de todos os resultados no Bing
Extração de dados com substituição inteligente de consultas através do motor de templates Template Toolkit e tools.query.add
🔗 Desduplicação no Bing
Extração de URLs únicas por palavra-chave e desduplicação por domínio, com a possibilidade de especificar o número máximo de URLs em um único domínio
🔗 Vários scrapers em um preset
O preset mostra um exemplo de uso de vários scrapers
Dados coletados
- Número de resultados por consulta
- Links, âncoras e snippets dos resultados
- Lista de palavras-chave relacionadas (Related keywords)
- Links, links visíveis, âncoras, snippets e posição de anúncios dos resultados publicitários

Recursos
- Suporte para todos os operadores de pesquisa do Bing (site:, ip:, etc.). Mais detalhes sobre operadores de pesquisa na página oficial Advanced search keywords.
- Extrai o número máximo de resultados fornecidos pelo Bing - até 200 páginas de resultados
- Pode extrair automaticamente mais de 1000 resultados por consulta - insere caracteres adicionais (opção Parse all results)
- Possibilidade de extrair em profundidade por palavras-chave relacionadas (Parse related to level)
- Possibilidade de buscar palavras-chave relacionadas
- Possibilidade de extrair links para páginas em cache
- Possibilidade de extrair resultados móveis
- Suporte para carregamento de dados ao rolar na versão móvel
Com base no scraper Bing, funcionam os seguintes scrapers:
SE::Bing::Position - determinação de posições de quaisquer sites nos resultados de busca para uma lista de consultas
Casos de uso
- Coleta de bases de links - para A-Poster, XRumer, AllSubmitter, etc.
- Avaliação de concorrência para palavras-chave
- Busca de backlinks (menções) de sites
- Verificação de indexação de sites
- Busca de sites vulneráveis
- Busca de sites no mesmo endereço IP
- Quaisquer outras variantes que envolvam a extração de dados do Bing de uma forma ou de outra
Consultas
Como consultas, é necessário indicar frases de pesquisa, exatamente como se fossem digitadas diretamente no formulário de busca do Bing, por exemplo:
test
janelas Moscou
site:http://lenta.ru
ip:222.36.12.12
Substituições de consultas
Você pode usar macros integradas para multiplicar consultas, por exemplo, se quisermos obter uma base muito grande de fóruns, indicaremos algumas consultas principais em diferentes idiomas:
forum
fórum
foro
论坛
No formato de consultas, indicaremos a permutação de caracteres de a até zzzz, este método permite rotacionar ao máximo os resultados de busca e obter muitos novos resultados únicos:
$query {az:a:zzzz}
Esta macro criará 475254 consultas adicionais para cada consulta de pesquisa original, o que resultará em um total de 4 x 475254 = 1901016 consultas de pesquisa, um número impressionante, mas que não é problema para o A-Parser. Com uma velocidade de 2000 consultas por minuto, essa tarefa será processada em apenas 16 horas.
Uso de operadores
Você pode usar operadores de pesquisa no formato da consulta, assim ele será automaticamente adicionado a cada consulta da sua lista:
site:$query
Exemplos de saída de resultados
O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, por exemplo, CSV ou JSON
Exportação de lista de links
Links + âncoras + snippets com exibição de posição
Exibição de links, âncoras e snippets em tabela CSV
Salvamento de palavras-chave relacionadas
Concorrência de palavras-chave
Verificação de indexação de links
Salvamento em formato SQL
Dump de resultados em JSON
Processamento de resultados
O A-Parser permite processar resultados diretamente durante a extração de dados, nesta seção apresentamos os casos mais populares para o scraper Bing
Desduplicação de links
Desduplicação de links por domínio
Extração de domínios
Remoção de tags de âncoras e snippets
Filtragem de links por ocorrência
Configurações possíveis
| Nome do parâmetro | Valor padrão | Descrição |
|---|---|---|
| Pages count | 10 | Número de páginas para extração de dados (de 1 a 200) |
| Region | Based on IP | Seleção de região. Lista de regiões. |
| Interface language | Any | Seleção do idioma da interface. Lista de idiomas. |
| Safe Search | Moderate | Seleção da opção de busca segura (Strict / Moderate / Off) |
| Device | Desktop | Seleção do dispositivo de busca (Desktop / Mobile) |
| Show inaccessible results | ☐ | Permite ativar a exibição de resultados ocultos |
| Stop pagination by results count | 0 | Interrupção da paginação ao atingir um número definido de resultados. Funciona em conjunto com Pages count, a extração de dados para dependendo do que for atingido primeiro: o número definido de páginas ou o número definido de resultados. |
| Handle captcha max pages | 10 | Número máximo de páginas abertas simultaneamente através das quais os cookies necessários para passar pelo captcha são gerados. Limita o paralelismo na etapa de contorno de captcha. |