SE::Rambler - scraper de résultats de recherche Rambler

Présentation du scraper
Scraper des résultats de recherche Rambler. Grâce au scraper Rambler, vous pourrez obtenir de grandes bases de liens prêts pour une utilisation ultérieure. Vous pouvez utiliser les requêtes de la même manière que vous les saisissez dans la barre de recherche Rambler, y compris les opérateurs de recherche (site, ip, etc.).
La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données du scraper Rambler pour une utilisation future (présélections), de définir un calendrier de collecte et bien plus encore. Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.
La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées
- Nombre de résultats dans la recherche
- Liens, ancres et snippets des résultats
- Liste de mots-clés associés (hints)

Fonctionnalités
- Prise en charge des opérateurs de recherche Rambler (url:, site:, inurl:, host:, rhost:, domain:.)
- Scrape jusqu'à 25 pages, de 10 à 50 résultats par page
- Scrape les mots-clés associés ($hints)
- Possibilité d'utiliser des services de résolution pour contourner les captchas
- Choix de l'appareil pour les résultats : bureau classique, mobile Android ou mobile iOS
Cas d'utilisation
- Collecte de bases de liens
- Évaluation de la concurrence pour les mots-clés
- Recherche de backlinks (mentions) de sites
- Tous les cas où il est nécessaire de scraper les résultats de recherche de Rambler
Requêtes
Indiquez les requêtes de la même manière que dans la recherche Rambler. Supposons que vous n'ayez besoin que des liens d'un seul site. Saisissez dans le champ des requêtes :
"acheter des portes" site:http://kp.ru
Substitutions de requêtes
Vous pouvez utiliser les macros intégrées pour multiplier les requêtes, par exemple si nous voulons obtenir une très grande base de forums, nous indiquerons plusieurs requêtes de base dans différentes langues :
forum
forum
foro
论坛
Dans le format des requêtes, nous indiquerons une itération de caractères de a à zzzz, cette méthode permet de faire pivoter au maximum les résultats de recherche et d'obtenir de nombreux nouveaux résultats uniques :
$query {az:a:zzzz}
Cette macro créera 475254 requêtes supplémentaires pour chaque requête de recherche initiale, ce qui donnera au total 4 x 475254 = 1901016 requêtes de recherche, un chiffre impressionnant, mais ce n'est pas du tout un problème pour A-Parser. À une vitesse de 2000 requêtes par minute, une telle tâche sera traitée en seulement 16 heures.
Utilisation des opérateurs
Vous pouvez utiliser des opérateurs de recherche dans le format de la requête, ainsi il sera automatiquement ajouté à chaque requête de votre liste :
site:$query
Variantes d'affichage des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON
Exportation d'une liste de liens
Liens + ancres + snippets avec affichage de la position
Affichage des liens, ancres et snippets dans un tableau CSV
Sauvegarde des mots-clés associés
Format du résultat :
$hints.format('$hint\n')
Exemple de résultat :
habrahabr
habr
habrahabr ru
xabra
livebusiness
eureka
comptable électronique
île d'elbe
elbe comptable électronique
habrahabr
...
Sauvegarde au format SQL
Dump des résultats en JSON
Traitement des résultats
A-Parser permet de traiter les résultats directement pendant la collecte de données, dans cette section nous avons listé les cas les plus populaires pour le scraper Rambler
Déduplication des liens
Déduplication des liens par domaine
Extraction de domaines
Suppression des balises des ancres et des snippets
Filtrage des liens par inclusion
Paramètres possibles
| Nom du paramètre | Valeur par défaut | Description |
|---|---|---|
| Device | Desktop | Choix de l'appareil pour les résultats : bureau classique, mobile Android ou mobile iOS |
| Pages count | 5 | Nombre de pages à scraper (de 1 à 25) |
| Links per page | 10 | Nombre de résultats par page (10/15/30/50) |
| Rambler region ID | Possibilité de définir une région. Il faut indiquer l'ID de la région. Comment trouver l'ID de la région souhaitée est décrit ici | |
| Sort | Sites by relevance | Choix de l'option de tri des résultats |
| Results filtering | Moderate | Choix de l'option de filtrage des résultats |
| Results language | Any language | Choix de la langue de recherche des résultats |
| Serp time | Anytime | Choix de la période des résultats |
| Results type | Any format | Choix du type de résultats (mime type) |
| Exact match | ☐ | Correspondance exacte à la requête |
| Disable autocorrect | ☐ | Désactive l'autocorrection, permet de scraper les résultats précisément selon la requête indiquée |
| Use sessions | ☑ | Conserve les bonnes sessions, ce qui permet de scraper encore plus vite en obtenant moins d'erreurs |
| AntiGate preset | default | Détermine s'il faut utiliser Util::AntiGate pour contourner les captchas |
