Passer au contenu principal

SE::DuckDuckGo - Scraper de résultats de recherche DuckDuckGo

DuckDuckGo

Présentation du scraper

Scraper des résultats de recherche DuckDuckGo. Grâce au scraper DuckDuckGo, vous pourrez obtenir de vastes bases de liens prêts à l'emploi. Vous pouvez utiliser les requêtes telles que vous les saisissez dans la barre de recherche DuckDuckGo, y compris les opérateurs de recherche (intitle, inurl, site, etc.). Plus de détails sur la page officielle DuckDuckGo Search Syntax.

Les fonctionnalités d'A-Parser permettent de sauvegarder les paramètres du scraper DuckDuckGo pour une utilisation ultérieure (présélections), de définir un calendrier de collecte de données et bien plus encore. Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.

La sauvegarde des résultats est possible dans le format et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, notamment JSON, SQL et CSV.

Données collectées

  • Liens, ancres et snippets des résultats de recherche
Données collectées

Possibilités

  • Prise en charge de tous les opérateurs de recherche DuckDuckGo (intitle:, inurl:, site:, etc.). Plus de détails sur les opérateurs de recherche sur la page officielle DuckDuckGo Search Syntax
  • Scrape le nombre maximum de résultats fournis par le moteur - 10 pages de 10 éléments par résultat
  • Nombre total de résultats - 100
  • Possibilité de scraper selon l'emplacement choisi (option Location)
  • Possibilité de choisir la langue des résultats (option Language)

Cas d'utilisation

  • Collecte de bases de liens - pour A-Poster, XRumer, AllSubmitter, etc.
  • Vérification de l'indexation des sites
  • Recherche de backlinks (mentions) de sites
  • Toute autre variante impliquant la collecte de données DuckDuckGo sous une forme ou une autre

Requêtes

Comme requêtes, il est nécessaire d'indiquer des expressions de recherche, par exemple :

Football  
test
site:a-parser.com
scraper site:a-parser.com
test -site:tests.com
IoT filetype:pdf

Substitutions de requêtes

Vous pouvez utiliser les macros intégrées pour multiplier les requêtes, par exemple si nous voulons obtenir une très grande base de forums, indiquons quelques requêtes de base dans différentes langues :

forum
forum
foro
论坛

Dans le format de requête, indiquons une itération de caractères de a à zzzz, cette méthode permet de faire pivoter au maximum les résultats de recherche et d'obtenir de nombreux nouveaux résultats uniques :

$query {az:a:zzzz}

Cette macro créera 475254 requêtes supplémentaires pour chaque requête de recherche initiale, ce qui donnera au total 4 x 475254 = 1901016 requêtes de recherche, un chiffre impressionnant, mais ce n'est pas du tout un problème pour A-Parser. À une vitesse de 2000 requêtes par minute, une telle tâche sera traitée en seulement 16 heures.

Utilisation des opérateurs

Vous pouvez utiliser des opérateurs de recherche dans le format de la requête, ainsi ils seront automatiquement ajoutés à chaque requête de votre liste :

site:$query

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme arbitraire, ainsi que structurée, par exemple CSV ou JSON

Export d'une liste de liens

Identique à SE::Google.

Identique à SE::Google.

Identique à SE::Google.

Identique à SE::Google.

Vérification de l'indexation des liens

Identique à SE::Google.

Sauvegarde au format SQL

Identique à SE::Google.

Dump des résultats en JSON

Identique à SE::Google.

Traitement des résultats

A-Parser permet de traiter les résultats directement pendant la collecte de données, dans cette section nous avons listé les cas les plus populaires pour le scraper DuckDuckGo

Identique à SE::Google.

Identique à SE::Google.

Extraction de domaines

Identique à SE::Google.

Suppression des balises des ancres et snippets

Identique à SE::Google.

Identique à SE::Google.

Paramètres possibles

Nom du paramètreValeur par défautDescription
Pages count5Nombre de pages à scraper (de 1 à 10)
RegionUS (English)Choix de l'emplacement
LanguageEnglish (United States)Choix de la langue
Safe searchModeratePossibilité d'activer la "Recherche sécurisée"
Serp timeAny timePériode de recherche
Use HTTP/2Détermine s'il faut utiliser HTTP/2 au lieu de HTTP/1.1
User agentMozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0En-tête User-Agent lors de la requête des pages