SE::Yandex::Balaboba - scraper de textes de Balaboba

Présentation du scraper
SE::Yandex::Balaboba - scraper de textes avec Balaboba.Récupère des textes à partir du service éponyme.
Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.
La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte du scraper SE::Yandex::Balaboba pour une utilisation ultérieure (présélections), de définir des calendriers de collecte et bien plus encore.
La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées
- Texte généré
- Style selon lequel le texte a été généré
- Lien vers l'image
Fonctionnalités
- Collecter des textes uniques avec la possibilité de choisir le style de texte (paramètre Style) :
Recettes (RU),Histoires courtes (RU),Recipies (EN)et autres - Choix du numéro de style visible dans le navigateur pour collecter avec le style de texte souhaité s'il n'est pas présent dans l'option de sélection de style (paramètre ID of custom style)
Cas d'utilisation
- Collecte massive de textes uniques
Requêtes
Comme requêtes, il est nécessaire d'indiquer les phrases par lesquelles la génération commencera, par exemple :
Il était une fois
Substitutions de requêtes
Vous pouvez utiliser les macros intégrées pour la substitution automatique de sous-requêtes à partir de fichiers, par exemple si nous voulons ajouter une liste d'autres mots à chaque requête, indiquons quelques requêtes de base :
Il était une fois
Fantasy
Tower defense
Dans le format de requête, indiquons la macro de substitution de mots supplémentaires à partir du fichier keywords.txt, cette méthode permet d'augmenter considérablement la variabilité des requêtes :
{subs:keywords} $query
Cette macro créera autant de requêtes supplémentaires qu'il y en a dans le fichier pour chaque requête de recherche initiale, ce qui donnera au total [nombre de requêtes initiales] x [nombre de requêtes dans le fichier Keywords] = [nombre total de requêtes] à la suite de l'exécution de la macro.
Par exemple, si le fichier keywords.txt contient :
free
online
Au final, la macro de substitution transformera 3 requêtes de base en 6 :
free fantasy
online fantasy
free tower defense
online tower defense
free rpg
online rpg
Exemples de sortie de résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme arbitraire, ainsi que structurée, par exemple CSV ou JSON
Sortie par défaut
Format du résultat :
$style: $text\n
Exemple de résultat :
Sans style (RU) : Il était une fois trois petits cochons, trois frères.
Et chacun d'eux avait une maison.
C'étaient des cochons très unis.
Ils s'entraidaient en tout, et si quelque chose arrivait à l'un d'eux, l'autre frère venait toujours à la rescousse.
Un jour, il se mit à neiger fort, et les frères décidèrent de se cacher dans leurs maisons.
Mais soudain, un loup gris surgit du coin de la rue.
Il avait faim et vit que les maisons n'avaient pas de portes.
Alors le loup décida d'entrer dans la première maison et de manger le cochon.
Le loup ouvrit rapidement la porte et regarda à l'intérieur.
Paramètres possibles
| Paramètre | Valeur par défaut | Description |
|---|---|---|
| Style | Random (All languages) | Choix du style de texte |
| ID of custom style | Définir le numéro de style pour la génération de texte | |
| Repeat if Balaboba reports about error | ☑ | Réessayer la collecte si Balaboba affiche un message d'erreur |
| Repeat if Balaboba reports about bad query | ☑ | Réessayer la collecte si Balaboba affiche un message en raison d'une requête invalide |