Passer au contenu principal

SE::Baidu - Scraper de la SERP Baidu

img

Aperçu du scraper

Scraper de la page de résultats de recherche Baidu. Grâce au scraper Baidu, vous pourrez obtenir d'énormes bases de liens prêts à l'emploi. Vous pouvez utiliser les requêtes telles que vous les saisissez dans la barre de recherche Bing, y compris les opérateurs de recherche (filetype, site, intitle).

Les fonctionnalités d'A-Parser permettent de sauvegarder les paramètres de collecte de données du scraper Baidu pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore. Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.

Dans le scraper Baidu, la sauvegarde des résultats est possible sous la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, notamment JSON, SQL et CSV.

Cas d'utilisation du scraper

Données collectées

  • Liens
  • Snippets
  • Ancres
  • Nombre total de résultats
  • Liste de mots-clés associés
  • Nombre de pages de résultats
Données collectées

Possibilités

  • Scrape jusqu'à 5000 résultats par requête
  • Prise en charge de tous les opérateurs de recherche Baidu (filetype:, site:, intitle:).
  • Collecte les résultats par requête et les mots-clés associés
  • Conversion des liens tronqués en liens complets (option Get full links)

Cas d'utilisation

  • Collecte de bases de liens - pour A-Poster, XRumer, AllSubmitter, etc.
  • Évaluation de la concurrence pour les mots-clés
  • Vérification de l'indexation des sites
  • Collecte de pages contenant les mots-clés spécifiés dans le titre de la page

Requêtes

Comme requêtes, il est nécessaire d'indiquer des phrases de recherche, par exemple :

test
site:www.baidu.com
百度产品大全
intitle:scraper

Substitutions de requêtes

Vous pouvez utiliser les macros intégrées pour multiplier les requêtes, par exemple si nous voulons obtenir une très grande base de forums, indiquons quelques requêtes de base dans différentes langues :

forum
forum
foro
论坛

Dans le format de requête, indiquons une itération de caractères de a à zzzz, cette méthode permet de faire pivoter au maximum les résultats de recherche et d'obtenir de nombreux nouveaux résultats uniques :

$query {az:a:zzzz}

Cette macro créera 475254 requêtes supplémentaires pour chaque requête de recherche initiale, ce qui donnera au total 4 x 475254 = 1901016 requêtes de recherche, un chiffre impressionnant, mais ce n'est pas du tout un problème pour A-Parser. À une vitesse de 2000 requêtes par minute, une telle tâche sera traitée en seulement 16 heures.

Utilisation d'opérateurs

Vous pouvez utiliser des opérateurs de recherche dans le format de requête, ainsi il sera automatiquement ajouté à chaque requête de votre liste :

site:$query

Exemples de formats de sortie

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON

Exportation d'une liste de liens

Identique à SE::Google.

Identique à SE::Google.

Identique à SE::Google.

Identique à SE::Google.

Concurrence des mots-clés

Identique à SE::Google.

Vérification de l'indexation des liens

Identique à SE::Google.

Sauvegarde au format SQL

Identique à SE::Google.

Dump des résultats en JSON

Identique à SE::Google.

Traitement des résultats

A-Parser permet de traiter les résultats directement pendant la collecte de données, dans cette section nous avons listé les cas les plus populaires pour le scraper Baidu

Identique à SE::Google.

Identique à SE::Google.

Extraction de domaines

Identique à SE::Google.

Suppression des balises des ancres et snippets

Identique à SE::Google.

Identique à SE::Google.

Paramètres possibles

Nom du paramètreValeur par défautDescription
Pages count5Nombre de pages à scraper (de 1 à 100)
Links per page50Nombre de liens dans les résultats pour chaque page (10 / 20 / 50)
Get full linksConversion des liens tronqués en liens complets (désactivé par défaut)