跳转到主要内容

SE::Yandex::Balaboba - Balaboba 文本数据抓取工具

SE::Yandex::Balaboba

爬虫工具概览

SE::Yandex::BalabobaSE::Yandex::Balaboba - 来自 Balaboba 的文本爬虫工具。

同名服务 获取文本。

您可以使用自动查询扩展、从文件替换子查询、遍历数字字母组合和列表,以获取尽可能多的结果。

A-Parser 的功能允许保存 SE::Yandex::Balaboba 爬虫工具的设置以供将来使用(预设),设置数据抓取计划等等。

由于内置了强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,这允许对结果应用额外的逻辑并以各种格式输出数据,包括 JSON、SQL 和 CSV

采集数据

  • 生成的文本
  • 生成文本所使用的风格
  • 图片链接

功能

  • 抓取独特文本,并可选择文本风格(参数 Style):食谱 (RU), 短篇故事 (RU), Recipies (EN)
  • 选择可在浏览器中看到的风格编号,如果风格选项中没有所需的文本风格,可以使用该编号进行抓取(参数 ID of custom style

应用场景

  • 批量采集独特文本

查询

作为查询,需要指定生成开始的短语,例如:

很久很久以前

查询占位符

您可以使用 内置宏 自动从文件中替换子查询,例如我们想为每个查询添加一些其他单词列表,指定几个主要查询:

很久很久以前
Fantasy
Tower defense

在查询格式中指定从文件 keywords.txt 替换额外单词的宏,此方法可以成倍增加查询的多样性:

{subs:keywords} $query 

该宏将为每个原始搜索查询创建与文件中相同数量的附加查询,宏运行的结果总数为 [原始查询数量] x [Keywords 文件中的查询数量] = [总查询数量]

例如,如果 keywords.txt 文件包含:

free
online

最终,替换宏将把 3 个主要查询变为 6 个:

free fantasy
online fantasy
free tower defense
online tower defense
free rpg
online rpg

结果输出示例

得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果

默认输出

结果格式:

$style: $text\n

结果示例:

无风格 (RU):很久很久以前有三只小猪,它们是三兄弟。
它们每个人都有一间房子。
它们是非常友好的小猪。
它们在各方面都互相帮助,如果其中一个发生了什么事,另一个兄弟总是会来帮忙。
有一天,下起了大雪,兄弟们决定躲进各自的房子里避雪。
但这时,一只灰太狼从拐角处走了出来。
它很饿,看到房子没有门。
于是狼决定走进第一间房子,吃掉那只小猪。
狼迅速打开门,往里面看去。

可能的设置

参数默认值描述
StyleRandom (All languages)选择文本风格
ID of custom style设置文本生成的风格编号
Repeat if Balaboba reports about error如果 Balaboba 显示错误消息,则重试数据抓取
Repeat if Balaboba reports about bad query如果 Balaboba 因查询无效显示消息,则重试数据抓取