Passer au contenu principal

SE::Yandex::Balaboba - scraper de textes de Balaboba

SE::Yandex::Balaboba

Présentation du scraper

SE::Yandex::BalabobaSE::Yandex::Balaboba - scraper de textes avec Balaboba.

Récupère des textes à partir du service éponyme.

Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte du scraper SE::Yandex::Balaboba pour une utilisation ultérieure (présélections), de définir des calendriers de collecte et bien plus encore.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.

Données collectées

  • Texte généré
  • Style selon lequel le texte a été généré
  • Lien vers l'image

Fonctionnalités

  • Collecter des textes uniques avec la possibilité de choisir le style de texte (paramètre Style) : Recettes (RU), Histoires courtes (RU), Recipies (EN) et autres
  • Choix du numéro de style visible dans le navigateur pour collecter avec le style de texte souhaité s'il n'est pas présent dans l'option de sélection de style (paramètre ID of custom style)

Cas d'utilisation

  • Collecte massive de textes uniques

Requêtes

Comme requêtes, il est nécessaire d'indiquer les phrases par lesquelles la génération commencera, par exemple :

Il était une fois

Substitutions de requêtes

Vous pouvez utiliser les macros intégrées pour la substitution automatique de sous-requêtes à partir de fichiers, par exemple si nous voulons ajouter une liste d'autres mots à chaque requête, indiquons quelques requêtes de base :

Il était une fois
Fantasy
Tower defense

Dans le format de requête, indiquons la macro de substitution de mots supplémentaires à partir du fichier keywords.txt, cette méthode permet d'augmenter considérablement la variabilité des requêtes :

{subs:keywords} $query 

Cette macro créera autant de requêtes supplémentaires qu'il y en a dans le fichier pour chaque requête de recherche initiale, ce qui donnera au total [nombre de requêtes initiales] x [nombre de requêtes dans le fichier Keywords] = [nombre total de requêtes] à la suite de l'exécution de la macro.

Par exemple, si le fichier keywords.txt contient :

free
online

Au final, la macro de substitution transformera 3 requêtes de base en 6 :

free fantasy
online fantasy
free tower defense
online tower defense
free rpg
online rpg

Exemples de sortie de résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme arbitraire, ainsi que structurée, par exemple CSV ou JSON

Sortie par défaut

Format du résultat :

$style: $text\n

Exemple de résultat :

Sans style (RU) : Il était une fois trois petits cochons, trois frères.
Et chacun d'eux avait une maison.
C'étaient des cochons très unis.
Ils s'entraidaient en tout, et si quelque chose arrivait à l'un d'eux, l'autre frère venait toujours à la rescousse.
Un jour, il se mit à neiger fort, et les frères décidèrent de se cacher dans leurs maisons.
Mais soudain, un loup gris surgit du coin de la rue.
Il avait faim et vit que les maisons n'avaient pas de portes.
Alors le loup décida d'entrer dans la première maison et de manger le cochon.
Le loup ouvrit rapidement la porte et regarda à l'intérieur.

Paramètres possibles

ParamètreValeur par défautDescription
StyleRandom (All languages)Choix du style de texte
ID of custom styleDéfinir le numéro de style pour la génération de texte
Repeat if Balaboba reports about errorRéessayer la collecte si Balaboba affiche un message d'erreur
Repeat if Balaboba reports about bad queryRéessayer la collecte si Balaboba affiche un message en raison d'une requête invalide