Passer au contenu principal

Constructeur de résultats

Results Builder (Constructeur de résultats) - permet de transformer les résultats de chaque scraper avant leur formatage et leur enregistrement sur le disque

Possibilités

  • Division du résultat en parties à l'aide d'une expression régulière ou d'un séparateur arbitraire
  • Remplacement d'une sous-chaîne dans le résultat ou remplacement par expression régulière
  • Extraction du domaine ou du domaine principal à partir d'un lien
  • Conversion du résultat en majuscules\minuscules
  • Suppression des balises HTML (<b>text</b> -> text)
  • Conversion des entités HTML en leurs équivalents Unicode (&copy; -> ©)
  • Récupération de données à l'aide de requêtes XPath
Constructeur de résultats

Exemples

Collecte de domaines

Enregistrement uniquement des domaines lors de la collecte de liens à partir des moteurs de recherche :

Collecte de domaines

Les éléments link du tableau serp du premier scraper sont utilisés comme source, la fonction d'extraction du domaine principal du lien sera appliquée à chaque élément, le nouveau résultat sera enregistré sous le même nom (élément link dans le tableau serp) - il n'est donc pas nécessaire de modifier le format du résultat

Collecte de snippets avec nettoyage

Enregistrement des snippets des moteurs de recherche avec nettoyage des balises HTML et conversion des entités HTML

Par défaut, les ancres et les snippets sont collectés avec toutes les balises imbriquées, ce qui permet de conserver le même formatage que lors de la consultation des résultats des moteurs de recherche. Si seul le texte brut est nécessaire, vous pouvez utiliser les fonctionnalités du Constructeur de résultats :

Collecte de snippets avec nettoyage

Dans cet exemple, deux Constructeurs de résultats sont appliqués successivement aux snippets - la suppression des balises HTML et la conversion des entités HTML

Collecte à l'aide de XPath

Collecte de liens à partir des résultats de recherche à l'aide de XPath :

Collecte à l'aide de XPath

Cet exemple montre la collecte de liens à partir du moteur de recherche Google. La requête XPath utilisée est :

//*[@id="rso"]/div[3]/div/div[1]/a/@href