SE::Yandex::SQI - 检查 Yandex 站点质量指数 (SQI)
爬虫工具概览

SE::Yandex::SQI – 检查 Yandex 网站质量指数。极速爬虫工具,工作速度可达每分钟 3000-7000 个查询。您可以利用查询自动扩展、从文件插入子查询、循环遍历字母数字组合和列表,以获取尽可能多的结果。通过使用 结果过滤,您可以立即清理结果,删除所有不需要的垃圾内容(使用排除词)。
A-Parser 的功能允许保存 SE::Yandex::SQI 爬虫工具的抓取设置以便日后使用(预设),设置抓取计划等等。
得益于内置强大的模板引擎 Template Toolkit,可以将结果保存为您所需的任何形式和结构,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV。
采集的数据
- 网站质量指数(Yandex SQI)
- 网站徽章状态数据(1 - 已获得徽章,0 - 未获得徽章):
- 用户选择
- 热门网站
- 安全连接
- Turbo 页面
- 是否为官方网站
- 对于“用户选择”和“热门网站”徽章,可以获取获得徽章的准备程度,取值范围为 0 到 1 之间的中间值,例如 0.4。
- 评论数量、评分和评级
- 商品搜索中的店铺评级和 Yandex Market 上的店铺评级(如果目标网站有这些数据)
应用场景
- 从 Yandex 的角度评估网站的实用性
- 采集 Title 标签
查询
查询时需要指定目标网站的域名。可以带协议也可以不带协议,例如:
yandex.ru
google.com
vk.com
facebook.com
https://a-parser.com
结果输出示例
A-Parser 支持灵活的结果格式化,这得益于内置的模板引擎 Template Toolkit,使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。
默认输出
结果格式:
$query: $sqi\n
显示原始查询及其 SQI 的结果示例:
facebook.com: 130000
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000
如果域名的 SQI 不可用,结果将显示为 -1。
输出到 CSV 表格
结果格式:
[% tools.CSVline(query, sqi, rating); %]
文件名:
$datefile.format().csv
初始文本:
域名,评分,作者,价格
提示
要在任务编辑器中使用“Prepend text”选项,需要激活“More options”。 在“Prepend text”中输入以逗号分隔的列名,并将第二行留空。
保存为 SQL 格式
结果格式:
[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]
结果示例:
INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')
将结果转储为 JSON
通用结果格式:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;
obj.json %]
起始文本:
[
结束文本:
]
结果示例:
[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
提示
要在任务编辑器中使用“Prepend text”和“Append text”选项,需要激活“More options”。
可选设置
| 参数 | 默认值 | 描述 |
|---|---|---|
| AntiGate preset | default | 选择预设 Util::AntiGate,更多设置详情见此处 |
| AntiGate preset for old captcha | default | 与 AntiGate preset 类似,但仅用于普通(旧式,单张图片形式)验证码。如果此处未选择预设,则此类验证码将使用在 AntiGate preset 中选择的预设。 |
| Experimental img captcha max count | 5 | 每次尝试的最大重复验证码图片数量 |
| Preffered captcha type | Click | 选择首选验证码类型:Click 或 Puzzle |
| Use sessions | ☑ | 保存良好的会话,从而使抓取速度更快,错误更少 |
