SE::Yandex::Balaboba - Balaboba 文本数据抓取工具

爬虫工具概览
SE::Yandex::Balaboba - 来自 Balaboba 的文本爬虫工具。从 同名服务 获取文本。
您可以使用自动查询扩展、从文件替换子查询、遍历数字字母组合和列表,以获取尽可能多的结果。
A-Parser 的功能允许保存 SE::Yandex::Balaboba 爬虫工具的设置以供将来使用(预设),设置数据抓取计划等等。
由于内置了强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,这允许对结果应用额外的逻辑并以各种格式输出数据,包括 JSON、SQL 和 CSV。
采集数据
- 生成的文本
- 生成文本所使用的风格
- 图片链接
功能
- 抓取独特文本,并可选择文本风格(参数 Style):
食谱 (RU),短篇故事 (RU),Recipies (EN)等 - 选择可在浏览器中看到的风格编号,如果风格选项中没有所需的文本风格,可以使用该编号进行抓取(参数 ID of custom style)
应用场景
- 批量采集独特文本
查询
作为查询,需要指定生成开始的短语,例如:
很久很久以前
查询占位符
您可以使用 内置宏 自动从文件中替换子查询,例如我们想为每个查询添加一些其他单词列表,指定几个主要查询:
很久很久以前
Fantasy
Tower defense
在查询格式中指定从文件 keywords.txt 替换额外单词的宏,此方法可以成倍增加查询的多样性:
{subs:keywords} $query
该宏将为每个原始搜索查询创建与文件中相同数量的附加查询,宏运行的结果总数为 [原始查询数量] x [Keywords 文件中的查询数量] = [总查询数量]。
例如,如果 keywords.txt 文件包含:
free
online
最终,替换宏将把 3 个主要查询变为 6 个:
free fantasy
online fantasy
free tower defense
online tower defense
free rpg
online rpg
结果输出示例
得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果
默认输出
结果格式:
$style: $text\n
结果示例:
无风格 (RU):很久很久以前有三只小猪,它们是三兄弟。
它们每个人都有一间房子。
它们是非常友好的小猪。
它们在各方面都互相帮助,如果其中一个发生了什么事,另一个兄弟总是会来帮忙。
有一天,下起了大雪,兄弟们决定躲进各自的房子里避雪。
但这时,一只灰太狼从拐角处走了出来。
它很饿,看到房子没有门。
于是狼决定走进第一间房子,吃掉那只小猪。
狼迅速打开门,往里面看去。
可能的设置
| 参数 | 默认值 | 描述 |
|---|---|---|
| Style | Random (All languages) | 选择文本风格 |
| ID of custom style | 设置文本生成的风格编号 | |
| Repeat if Balaboba reports about error | ☑ | 如果 Balaboba 显示错误消息,则重试数据抓取 |
| Repeat if Balaboba reports about bad query | ☑ | 如果 Balaboba 因查询无效显示消息,则重试数据抓取 |