SE::Yandex::WordStat - WordStat 爬虫工具。收集关键词和展示次数统计

爬虫工具概览
Wordstat 是 Yandex 提供的一项服务,旨在评估用户对不同主题的兴趣,并为 SEO 优化和搜索广告选择关键词。此外,借助 Wordstat Yandex,还可以评估搜索查询的季节性和地理依赖性。
Yandex WordStat 关键词爬虫工具支持自动扩展查询,您可以确保从搜索结果中获得最大数量的结果。此外,A-Parser 可以自动按指定的深度抓取相关查询。
A-Parser 的功能允许保存数据抓取设置以便将来使用(预设),设置数据抓取计划等等。您可以使用自动扩展查询、从文件中替换子查询、枚举数字字母组合和列表,以便在抓取 Yandex Wordstat 时获得尽可能多的结果。
由于内置了强大的模板引擎 Template Toolkit,可以将结果保存为您需要的任何形式和结构,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV。
爬虫工具应用案例
🔗 深度抓取 Wordstat
使用 Yandex WordStat 爬虫工具进行深度数据抓取。
🔗 WordStat 频率评估
WordStat 频率评估
账号
为了运行
SE::Yandex::WordStat 爬虫工具,需要 Yandex 账号。可以使用
SE::Yandex::Register 爬虫工具注册账号,或者直接将现有账号以 支持的格式 添加到 files/SE-Yandex/accounts.txt 文件中。
或者可以开启“实时”账号注册。
要使用会话授权,数据行必须符合以下格式:
[email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}
采集的数据
- 指定查询的展示次数
- 统计数据更新日期
- 与指定关键词相关的所有关键词列表及其每月展示次数
- 用户搜索过的所有附加关键词列表及其每月展示次数

功能
- 抓取 Wordstat 提供的最大结果数 - 40 页,每页 50 个搜索结果
- 支持选择搜索区域(带子组)
- 可以自动将找到的关键词重新代入查询(选项 Parse to level)
- 可以同时选择多个区域进行评估
- 支持自动绕过 Smart captcha,并能够使用 AntiCaptcha 服务或任何其他支持其 API 的服务绕过图形验证码
- 选择设备类型
- 可以选择授权方法
- 可以“实时”注册账号
- 支持使用 扩展账号格式 并能回答安全问题(如果答案在
info). 此外,还使用保存的代理进行授权(如果它在info).
使用场景
- 评估关键词的流量(频率)
- 寻找相似主题的新关键词
- 采集不同主题的大型关键词库
- 任何涉及以某种形式抓取 Yandex.WordStat 的其他方案
查询
必须指定关键词作为查询,就像直接在 Wordstat 搜索框中输入一样,例如:
okna moskva
"okna moskva"
!okna !moskva
结果输出选项
A-Parser 得益于内置的模板引擎,支持灵活的结果格式化 Template Toolkit, 这使其能够以任意形式以及结构化形式(例如 CSV 或 JSON)输出结果
默认输出
结果格式:
$query - $totalcount, updated: $updatedate\nkeywords:\n$keys.format('$key: $count\n')\nadditional keywords:\n$search.format('$key: $count\n')
结果显示了原始查询、其展示次数、统计数据更新日期、相关关键词列表及其每月展示次数、附加关键词列表及其每月展示次数:
!okna !moskva - 10368, updated: 16/05/2013
keywords:
okna moskva: 32367
plastikovye okna moskva: 8994
okna pvkh moskva: 4813
kupit' okna moskva: 2561
okna tseny moskva: 1706
moskva rabota okna: 1547
vakansii okna moskva: 1187
derevyannye okna moskva: 1087
sluzhba +odnogo okna moskva: 1021
...
additional keywords:
proizvodstvo okon pvkh: 8512
okna rehau: 15686
okna salamander: 1576
okna kbe: 3798
okna kbe: 6089
okna kve: 3227
osteklenie balkonov: 83216
besedki: 471213
osteklenie lodzhiy: 26366
ofisnye peregorodki: 18740
montazh okon: 26223
输出到 CSV 表格
结果格式:
[% FOREACH i IN keys;
tools.CSVline(query, i. key, i.count);
END %]
结果示例:
爬虫工具 网站, 爬虫工具 网站, 8055
爬虫工具 网站, 免费网站爬虫工具, 1122
爬虫工具 网站, 爬虫工具 官网, 666
爬虫工具 网站, 网站云端爬虫工具, 507
爬虫工具 网站, 网站 email 爬虫工具, 477
爬虫工具 网站, 网站爬虫工具下载, 434
爬虫工具 网站, 网站地址爬虫工具, 390
爬虫工具 网站, 在线网站爬虫工具, 366
爬虫工具 网站, Turbo 网站爬虫工具, 342
爬虫工具 网站, Turbo 爬虫工具官网, 309
爬虫工具 网站, 云端爬虫工具官网, 308
爬虫工具 网站, Excel 网站爬虫工具, 276
爬虫工具 网站, Sliza 爬虫工具网站, 259
以 SQL 格式保存
结果格式:
[% FOREACH i IN keys;
"INSERT INTO keys VALUES('" _ query _ "', '"; i.key _ "', '"; i.count _ "')\n";
END %]
结果示例:
INSERT INTO serp VALUES('测试', '测试', '10837937')
INSERT INTO serp VALUES('测试', '试驾', '1164338')
INSERT INTO serp VALUES('测试', '面团 +用于测试', '879980')
INSERT INTO serp VALUES('测试', '在线测试', '792560')
INSERT INTO serp VALUES('测试', '试驾视频', '550164')
INSERT INTO serp VALUES('测试', '面团配方', '484489')
INSERT INTO serp VALUES('测试', '带答案的测试', '449401')
INSERT INTO serp VALUES('测试', '2014 测试', '427602')
INSERT INTO serp VALUES('测试', '免费测试', '315144')
INSERT INTO serp VALUES('测试', '免费测试', '315096')
INSERT INTO serp VALUES('测试', '女生测试', '309355')
INSERT INTO serp VALUES('测试', '按主题测试', '293917')
INSERT INTO serp VALUES('测试', '测试游戏', '288989')
将结果转储为 JSON
通用结果格式:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.updatedate = p1.updatedate;
obj.totalcount = p1.totalcount;
obj.keys = [];
FOREACH item IN p1.keys;
obj.keys.push({
key = item.key
count = item.count
});
END;
obj.json %]
起始文本:
[
结束文本:
]
结果示例:
[{
"updatedate": "12.03.2014",
"totalcount": "10837937",
"keys": [
{
"count": "10837937",
"key": "测试"
},
{
"count": "1164338",
"key": "试驾"
},
{
"count": "879980",
"key": "面团 +用于测试"
},
{
"count": "792560",
"key": "在线测试"
},
]
}]
另请参阅:结果过滤器
可能的设置
| 参数 | 默认值 | 描述 |
|---|---|---|
| Pages count | 10 | 要抓取的页数 |
| Region | All | 搜索区域 |
| Remove + from keywords | ☐ | 从找到的查询中删除加号 (+) |
| AntiGate preset | default | 需要预先配置爬虫工具 Util::AntiGate - 指定您的访问密钥和其他参数,然后在此处选择创建的预设 |
| AntiGate preset for Login | default | 用于登录的 AntiGate 预设。需要预先配置爬虫工具 Util::AntiGate 带参数,然后在此处选择创建的预设 |
| Type | All | 选择设备类型 |
| Accounts | Only from "accounts.txt" | 选择账号处理方法:Always auto register - 始终“实时”自动注册账号,需要在 SE::Yandex::Register preset 参数中选择配置好的预设。Auto register if no more in "accounts.txt" - 首先使用 accounts.txt 中的现有账号,如果用完,则使用“实时”自动注册,为此需要在 SE::Yandex::Register preset 参数中选择配置好的预设。Only from "accounts.txt" - 仅使用 accounts.txt 中的现有账号,如果用完,则等待指定时间(Wait new accounts in "accounts.txt" 参数)以出现新账号。Only by session_id from "accounts.txt" - 通过 Cookie 授权。 |
| Wait new accounts in "accounts.txt" | 0 | 在 accounts.txt 中等待新账号出现的时间 |
| Remove bad accounts | Always, except wrong login/password | 自动删除“坏”账号:Always - 始终删除。Always, except wrong login/password - 始终删除,除非 Yandex 报告登录名/密码错误。事实是,当 IP 被封禁时,Yandex 可能会对完全正常的账号给出此类消息,因此可以选择保留此类账号以供重复使用。Never - 永不删除。无论选择哪种选项,在代理/浏览器错误时都不会删除账号 |
| SE::Yandex::Register preset | default | 选择设置预设用于 SE::Yandex::Register |
| Authorization method | HTTP | 授权方法:HTTP - 快速,对资源要求低。Chrome - 慢速,对资源要求高,理论上可以延长账号寿命 |
| Chrome headless | ☑ | 如果启用该选项,浏览器将不会显示 |
| Use sessions | ☑ | 使用会话 |
| Do not reset session if authorization passed | ☑ | 如果爬虫工具已授权,发生错误时不重置会话 |
| Use Wordstat 2 | ☐ | 使用 Wordstat 2 |
| Wordstat 2 parse all table data | ☑ | 允许立即导出查询的所有 2000 个结果,无需翻页 |

