Pular para o conteúdo principal

SE::DuckDuckGo - Scraper de resultados de busca do DuckDuckGo

DuckDuckGo

Visão geral do scraper

Scraper de resultados de busca do DuckDuckGo. Graças ao scraper DuckDuckGo, você poderá obter grandes bases de links prontos para uso posterior. Você pode usar consultas da mesma forma que as digita na barra de pesquisa do Dogpile, incluindo operadores de pesquisa (intitle, inurl, site, etc.). Mais detalhes na página oficial DuckDuckGo Search Syntax.

A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper DuckDuckGo para uso futuro (presets), definir agendamentos de extração de dados e muito mais. Você pode usar a multiplicação automática de consultas, substituição de subconsultas a partir de arquivos, combinação de caracteres alfanuméricos e listas para obter o máximo possível de resultados.

A preservação dos resultados é possível no formato e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Dados coletados

  • Links, âncoras e snippets dos resultados
Dados coletados

Recursos

  • Suporte para todos os operadores de pesquisa do DuckDuckGo (intitle:, inurl:, site:, etc.). Mais detalhes sobre os operadores de pesquisa na página oficial DuckDuckGo Search Syntax
  • Extrai o número máximo de resultados fornecidos pelo Bing - 10 páginas de 10 elementos nos resultados
  • Quantidade total de resultados - 100
  • Possibilidade de extrair dados por localização selecionada (opção Location)
  • Possibilidade de escolher o idioma dos resultados (opção Language)

Casos de uso

  • Coleta de bases de links - para A-Poster, XRumer, AllSubmitter, etc.
  • Verificação de indexação de sites
  • Busca de backlinks (menções) de sites
  • Quaisquer outras variantes que envolvam a extração de dados do DuckDuckGo de uma forma ou de outra

Consultas

Como consultas, é necessário indicar frases de pesquisa, por exemplo:

Football  
teste
site:a-parser.com
scraper site:a-parser.com
test -site:tests.com
IoT filetype:pdf

Substituições de consultas

Você pode usar macros integradas para multiplicar as consultas, por exemplo, se quisermos obter uma base muito grande de fóruns, indicaremos algumas consultas principais em diferentes idiomas:

forum
fórum
foro
论坛

No formato de consultas, indicaremos a alternância de caracteres de a até zzzz, este método permite rotacionar ao máximo os resultados de busca e obter muitos novos resultados únicos:

$query {az:a:zzzz}

Esta macro criará 475254 consultas adicionais para cada consulta de pesquisa inicial, o que resultará em um total de 4 x 475254 = 1901016 consultas de pesquisa, um número impressionante, mas que não é problema para o A-Parser. Com uma velocidade de 2000 consultas por minuto, tal tarefa será processada em apenas 16 horas.

Uso de operadores

Você pode usar operadores de pesquisa no formato da consulta, assim ele será automaticamente adicionado a cada consulta da sua lista:

site:$query

Opções de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, como CSV ou JSON

Exportação de lista de links

Semelhante ao SE::Google.

Semelhante ao SE::Google.

Semelhante ao SE::Google.

Semelhante ao SE::Google.

Verificação de indexação de links

Semelhante ao SE::Google.

Salvamento em formato SQL

Semelhante ao SE::Google.

Dump de resultados em JSON

Semelhante ao SE::Google.

Processamento de resultados

O A-Parser permite processar os resultados diretamente durante a extração de dados; nesta seção, apresentamos os casos mais populares para o scraper DuckDuckGo

Semelhante ao SE::Google.

Semelhante ao SE::Google.

Extração de domínios

Semelhante ao SE::Google.

Remoção de tags de âncoras e snippets

Semelhante ao SE::Google.

Semelhante ao SE::Google.

Configurações possíveis

Nome do parâmetroValor padrãoDescrição
Pages count5Quantidade de páginas para extração de dados (de 1 a 10)
RegionUS (English)Escolha da localização
LanguageEnglish (United States)Escolha do idioma
Safe searchModeratePossibilidade de ativar o "Safe search"
Serp timeAny timePeríodo de busca
Use HTTP/2Define se deve usar HTTP/2 em vez de HTTP/1.1
User agentMozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0Cabeçalho User-Agent ao solicitar páginas