Pular para o conteúdo principal

SE::Baidu - Scraper de resultados de busca do Baidu

img

Visão geral do scraper

Scraper de resultados de busca do Baidu. Graças ao scraper Baidu, você poderá obter enormes bases de links prontos para uso posterior. Você pode usar consultas da mesma forma que as digita na barra de pesquisa do Bing, incluindo operadores de pesquisa (filetype, site, intitle).

A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper Baidu para uso futuro (predefinições), definir cronogramas de extração de dados e muito mais. Você pode usar a multiplicação automática de consultas, substituição de subconsultas a partir de arquivos, combinação de caracteres alfanuméricos e listas para obter o máximo possível de resultados.

No scraper Baidu, a preservação dos resultados é possível no formato e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Casos de uso do scraper

Dados coletados

  • Links
  • Snippets
  • Âncoras
  • Número total de resultados
  • Lista de palavras relacionadas
  • Número de páginas de resultados
Dados coletados

Recursos

  • Coleta até 5000 resultados por consulta
  • Suporte para todos os operadores de pesquisa do Baidu (filetype:, site:, intitle:).
  • Coleta resultados por consulta e palavras-chave relacionadas
  • Conversão de links curtos em links completos (opção Get full links)

Casos de uso

  • Coleta de bases de links - para A-Poster, XRumer, AllSubmitter, etc.
  • Avaliação da concorrência para palavras-chave
  • Verificação de indexação de sites
  • Coleta de páginas que contêm palavras-chave específicas no título da página

Consultas

Como consultas, é necessário indicar frases de pesquisa, por exemplo:

test
site:www.baidu.com
百度产品大全
intitle:scraper

Substituições de consultas

Você pode usar macros integradas para multiplicar consultas, por exemplo, se quisermos obter uma base muito grande de fóruns, indicaremos algumas consultas principais em diferentes idiomas:

forum
fórum
foro
论坛

No formato de consultas, indicaremos a permutação de caracteres de a a zzzz, este método permite rotacionar ao máximo os resultados de busca e obter muitos novos resultados únicos:

$query {az:a:zzzz}

Esta macro criará 475254 consultas adicionais para cada consulta de pesquisa inicial, o que resultará em um total de 4 x 475254 = 1901016 consultas de pesquisa, um número impressionante, mas que não é problema para o A-Parser. Com uma velocidade de 2000 consultas por minuto, tal tarefa será processada em apenas 16 horas.

Uso de operadores

Você pode usar operadores de pesquisa no formato da consulta, desta forma ele será automaticamente adicionado a cada consulta da sua lista:

site:$query

Exemplos de saída de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados de forma arbitrária, bem como estruturada, por exemplo, CSV ou JSON

Exportação de lista de links

Da mesma forma que no SE::Google.

Da mesma forma que no SE::Google.

Da mesma forma que no SE::Google.

Da mesma forma que no SE::Google.

Concorrência de palavras-chave

Da mesma forma que no SE::Google.

Verificação de indexação de links

Da mesma forma que no SE::Google.

Salvando em formato SQL

Da mesma forma que no SE::Google.

Dump de resultados em JSON

Da mesma forma que no SE::Google.

Processamento de resultados

O A-Parser permite processar os resultados diretamente durante a extração de dados, nesta seção apresentamos os casos mais populares para o scraper Baidu

Da mesma forma que no SE::Google.

Da mesma forma que no SE::Google.

Extração de domínios

Da mesma forma que no SE::Google.

Remoção de tags de âncoras e snippets

Da mesma forma que no SE::Google.

Da mesma forma que no SE::Google.

Configurações possíveis

Nome do parâmetroValor padrãoDescrição
Pages count5Número de páginas para extração de dados (de 1 a 100)
Links per page50Número de links nos resultados para cada página (10 / 20 / 50)
Get full linksConversão de links curtos em completos (desativado por padrão)