メインコンテンツへスキップ

SE::Yandex::Balaboba - Balabobaテキストスクレイパー

SE::Yandex::Balaboba

スクレイパーの概要

SE::Yandex::BalabobaSE::Yandex::Balaboba - Balabobaからテキストを抽出するスクレイパー。

同名のサービスからテキストを取得します。

クエリの自動増殖、ファイルからのサブクエリの置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。

A-Parserの機能により、SE::Yandex::Balaboba スクレイパーのスクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。

結果の保存は、内蔵された強力なテンプレートエンジン Template Toolkit により、必要な形式と構造で保存できます。これにより、結果に追加のロジックを適用したり、JSON、SQL、CSV を含む様々なフォーマットでデータを出力したりできます。

収集されるデータ

  • 生成されたテキスト
  • テキストが生成された際のスタイル
  • 画像へのリンク

機能

  • テキストスタイルの選択(Style パラメータ)によるユニークなテキストのスクレイピング:レシピ (RU)短い物語 (RU)Recipies (EN) など
  • ブラウザで確認できるスタイル番号を選択し、スタイル選択オプションにない場合でも任意のテキストスタイルでスクレイピング可能(ID of custom style パラメータ)

ユースケース

  • ユニークなテキストの大量収集

クエリ

クエリとして、生成を開始するフレーズを指定する必要があります。例:

むかしむかし

クエリの置換

内蔵マクロを使用して、ファイルからサブクエリを自動的に置換できます。例えば、各クエリに他の単語のリストを追加したい場合、いくつかのメインクエリを指定します:

むかしむかし
Fantasy
Tower defense

クエリ形式で、ファイル keywords.txt から追加の単語を置換するマクロを指定します。この方法により、クエリのバリエーションを大幅に増やすことができます:

{subs:keywords} $query 

このマクロは、元の検索クエリごとにファイル内の行数分だけ追加のクエリを作成します。その結果、マクロの動作により [元のクエリ数] x [Keywordsファイル内のクエリ数] = [総クエリ数] となります。

例えば、keywords.txt ファイルに以下が含まれている場合:

free
online

最終的に置換マクロは3つのメインクエリを6つに変換します:

free fantasy
online fantasy
free tower defense
online tower defense
free rpg
online rpg

結果の出力例

A-Parserは、内蔵されたテンプレートエンジン Template Toolkit により柔軟な結果のフォーマットをサポートしており、任意の形式や CSV、JSON などの構造化された形式で結果を出力できます。

デフォルト出力

結果フォーマット:

$style: $text\n

結果の例:

スタイルなし (RU): むかしむかし、三匹の子豚の兄弟がいました。
彼らはそれぞれ自分の家を持っていました。
彼らはとても仲の良い子豚たちでした。
彼らはお互いに助け合い、もし誰かに何かが起きれば、別の兄弟がいつも助けに駆けつけました。
ある日、激しい雪が降り始め、兄弟たちはそれぞれの家に隠れることにしました。
しかしその時、角から一匹の灰色の狼が現れました。
狼はお腹を空かせており、家々にドアがないことに気づきました。
そこで狼は最初の家に入り、子豚を食べてしまおうと決めました。
狼は素早くドアを開け、中を覗き込みました。

可能な設定

パラメータデフォルト値説明
StyleRandom (All languages)テキストスタイルの選択
ID of custom styleテキスト生成用のスタイル番号を設定
Repeat if Balaboba reports about errorBalabobaがエラーメッセージを表示した場合にスクレイピングを再試行する
Repeat if Balaboba reports about bad query不正なクエリによりBalabobaがメッセージを表示した場合にスクレイピングを再試行する