SE::Quora - Quora 搜索结果爬虫工具

SE::Quora 爬虫工具概览
SE::Quora - Quora 搜索结果爬虫工具。从同名服务中采集结果。
您可以使用自动查询扩展、从文件中替换子查询、遍历数字字母组合以及列表,以获取尽可能多的结果。
A-Parser 的功能允许保存 SE::Quora 爬虫工具的数据抓取设置以便后续使用(预设),设置数据抓取计划等等。
得益于内置强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,这允许对结果应用额外的逻辑并以各种格式输出数据,包括 JSON、SQL 和 CSV。
采集的数据
Quora 有 6 种结果类型:Questions, Answers, Posts, Profiles, Topics 和 Spaces。每种类型的数据集都不同,因此在爬虫工具中,每种类型都记录在各自独立的数组中。根据类型,采集的内容包括:
- 问题链接、问题文本、回答数量和日期
- 回答作者、回答文本、回答中的媒体链接、回答日期和时间、点赞数、浏览量和分享次数
- 帖子链接、帖子标题、帖子文本、帖子中的媒体链接、作者姓名和个人资料链接、发布日期和时间、点赞数、浏览量和分享次数
- 以及其他取决于结果类型的数据
功能
- 选择所需的结果类型或同时抓取所有类型
- 选择结果的时间范围
应用场景
- 任何需要从 Quora 获取数据的场景
查询
需要指定关键词作为查询,例如:
test
结果输出示例
得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。
默认输出
结果格式:
$questions.format('$question\n')
结果示例:
What is the best free online IQ test?
What is software testing?
How reliable is the DNA testing offered by sites like Ancestry.com or 23andMe?
How can I pass a urine drug test for meth?
How do you know if you're really smart without taking an IQ test?
Which is the best test series for CAT?
How reliable are online IQ tests?
Is software testing a good career choice?
What is the best test series for the GATE examination?
What is the best way to get my IQ checked online?
...
获取 Cookie
获取授权所需的必要选项
提示:如何找到 cookie?
- 访问 quora.com,登录账号
- 打开开发者工具 (F12) 并刷新页面
- 切换到 Network 标签页,找到对 quora.com 的请求
- 复制完整的 Cookie 字符串

信息
根据我们的测试,账号不会被封禁(未来可能会改变),但在超过 10 个线程进行数据抓取时,Quora 会开始报错并提示查询过多。因此,建议使用较少的线程进行抓取,或使用多个账号的 Cookie。
可能的设置
| 参数 | 默认值 | 描述 |
|---|---|---|
| Pages count | 5 | 搜索结果页数 |
| Results type | Questions | 结果类型 |
| Results time | All time | 结果时间 |
| Cookie | 用于填写已登录账号 Cookie 的字段。可以指定多个账号的 Cookie,爬虫工具将在每次尝试时随机从中选择。 |