Passer au contenu principal

SE::Startpage - scraper de résultats startpage.com

Startpage

Présentation du scraper

Scraper des résultats de recherche Startpage. Grâce au scraper Startpage, vous pourrez obtenir de grandes bases de liens prêts pour une utilisation ultérieure. Vous pouvez utiliser les requêtes telles que vous les saisissez dans la barre de recherche Startpage, y compris les opérateurs de recherche (site, inurl, etc.).

Les fonctionnalités d'A-Parser permettent de sauvegarder les paramètres de collecte de données du scraper Startpage pour une utilisation future (présélections), de définir un calendrier de collecte et bien plus encore. Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, notamment JSON, SQL et CSV.

Données collectées

  • Liens, ancres et extraits (snippets) des résultats de recherche
Données collectées

Fonctionnalités

  • Prend en charge le choix du pays, de la langue de recherche et de la langue de la page
  • Possibilité d'extraire ensemble ou séparément les ancres, les liens et les snippets
  • Possibilité de spécifier le nombre de résultats à afficher
  • Spécification de la taille de la page de résultats (10 ou 20 résultats)

Cas d'utilisation

  • Collecte de bases de liens, d'ancres et de snippets
  • Obtention d'une liste de sites les plus fréquemment mentionnés dans les moteurs de recherche
  • Tout autre cas d'utilisation pour l'obtention d'informations

Requêtes

Les requêtes sont spécifiées sous forme de mots, de phrases ou de locutions, exactement comme elles sont saisies dans le moteur de recherche. Exemple :

test   
site:http://test.ru
roses rouges

Substitutions de requêtes

Vous pouvez utiliser les macros intégrées pour multiplier les requêtes. Par exemple, si nous voulons obtenir une très grande base de forums, nous indiquons plusieurs requêtes de base dans différentes langues :

forum
forum
foro
论坛

Dans le format de requête, nous spécifions une itération de caractères de a à zzzz. Cette méthode permet de faire pivoter au maximum les résultats de recherche et d'obtenir de nombreux nouveaux résultats uniques :

$query {az:a:zzzz}

Cette macro créera 475254 requêtes supplémentaires pour chaque requête de recherche initiale, ce qui donnera au total 4 x 475254 = 1901016 requêtes de recherche. C'est un chiffre impressionnant, mais ce n'est pas un problème pour A-Parser. À une vitesse de 2000 requêtes par minute, une telle tâche sera traitée en seulement 16 heures.

Utilisation d'opérateurs

Vous pouvez utiliser des opérateurs de recherche dans le format de requête, ainsi ils seront automatiquement ajoutés à chaque requête de votre liste :

site:$query

Exemples de formats de sortie

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre ou structurée, comme CSV ou JSON.

Exportation d'une liste de liens

Identique à SE::Google.

Identique à SE::Google.

Identique à SE::Google.

Sauvegarde au format SQL

Identique à SE::Google.

Dump des résultats en JSON

Identique à SE::Google.

Traitement des résultats

A-Parser permet de traiter les résultats directement pendant la collecte de données. Dans cette section, nous avons listé les cas les plus populaires pour le scraper Startpage.

Identique à SE::Google.

Identique à SE::Google.

Extraction de domaines

Identique à SE::Google.

Suppression des balises des ancres et des snippets

Identique à SE::Google.

Identique à SE::Google.

Paramètres possibles

Nom du paramètreValeur par défautDescription
Pages count5Nombre de pages à scraper (de 1 à 50)
Family filterFilter depending on searchChoix du niveau de filtrage (Filter all results / Filter depending on search / Do not filter my results)
PeriodAny timeChoix de la période des résultats (Any time / Past 24 hours / Past week / Past month / Past year)
Links per page10Taille de la page de résultats (10 / 20)
Results languageEnglishChoix de la langue des résultats
Page languageEnglishChoix de la langue de la page
Search countryAllChoix du pays d'où la recherche est effectuée