跳转到主要内容

SE::Yandex::WordStat::ByRegion -

Yandex WordStat: ByRegion

爬虫工具概览

Wordstat 是 Yandex 的一项服务,旨在评估用户对各种主题的兴趣,并为 SEO 优化和上下文广告选择关键词。此外,借助 Wordstat Yandex,您可以评估搜索查询的季节性和地域依赖性。

Yandex WordStat by region 爬虫工具支持自动扩展查询,您可以确保从搜索结果中获得最大数量的结果。此外,A-Parser 可以按指定的深度自动跳转到相关查询。

A-Parser 的功能允许保存数据抓取设置以供将来使用(预设)、设置数据抓取计划等等。您可以使用自动扩展查询、从文件中替换子查询、遍历数字字母组合和列表,以获取尽可能多的结果。

由于内置了强大的模板引擎 Template Toolkit,可以将结果保存为您需要的任何形式和结构,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV

账号

运行爬虫工具 SE::Yandex::WordStat::ByRegionSE::Yandex::WordStat::ByRegion 需要 Yandex 账号。您可以使用爬虫工具 SE::Yandex::RegisterSE::Yandex::Register 注册账号,或者直接将现有账号以支持的格式添加到 files/SE-Yandex/accounts.txt 文件中。

或者可以启用“实时”账号注册。

采集的数据

  • 查询的总展示次数
  • 按地区和城市的关键词统计:
  • 地区/城市
  • 每月浏览量
  • 地区普及率 %

功能

  • 支持自动绕过 Smart captcha,并能够使用 AntiCaptcha 服务或任何其他支持其 API 的服务绕过图形验证码
  • 选择设备类型
  • 可以选择登录验证方式
  • 可以“实时”注册账号
  • 支持使用扩展格式账号并能够回答安全问题(如果 info 中有答案)。此外,还使用保存的代理进行登录验证(如果 info 中有该代理)。

应用场景

  • 按地区评估关键词的流量大小

查询

在查询中需要指定关键词,就像直接在 Wordstat 搜索框中输入一样,例如:

test

结果输出选项

得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(例如 CSV 或 JSON)输出结果。

默认输出

结果格式:

$query - Total views: $totalcount\nViews by regions:\n$regions.format('$region $count, $popularity%\n')\nViews by cities:\n$cities.format('$city $count, $popularity%\n')

结果显示了查询的展示次数、按地区和城市的关键词统计、每月浏览量和地区普及率:

test - Total views: 872855
Views by regions:
莫斯科和莫斯科州 147107, 85%
中心 194716, 77%
西北 55815, 70%
南方 31759, 67%
伏尔加河沿岸 86006, 66%
...
Views by cities:
赤塔 2937, 113%
圣彼得堡 35713, 73%
别尔哥罗德 2737, 58%
伊万诺沃 1773, 55%
卡卢加 2196, 64%
科斯特罗马 1166, 49%

输出到 CSV 表格

结果格式:

[% FOREACH i IN regions;
tools.CSVline(query, i.popularity, i.region, i.count);
END %]

结果示例:

"测试",88,"莫斯科和莫斯科州",1902795
"测试",96,"中心",2992864
"测试",95,"西北",926138
"测试",112,南方,647140
"测试",124,"伏尔加河沿岸",1927873
"测试",64,"西方",60975
"测试",86,"东方",427304

以 SQL 格式保存

结果格式:

[% FOREACH i IN regions;
"INSERT INTO regions VALUES('" _ query _ "', '"; i.popularity _ "', '"; i.count _ "', '"; i.region _ "')\n";
END %]

结果示例:

INSERT INTO regions VALUES('测试', '88', '1902795', '莫斯科和莫斯科州')
INSERT INTO regions VALUES('测试', '96', '2992864', '中部')
INSERT INTO regions VALUES('测试', '95', '926138', '西北')
INSERT INTO regions VALUES('测试', '112', '647140', '南部')
INSERT INTO regions VALUES('测试', '124', '1927873', '伏尔加河沿岸')
INSERT INTO regions VALUES('测试', '64', '60975', '西部')
INSERT INTO regions VALUES('测试', '86', '427304', '东部')
INSERT INTO regions VALUES('测试', '80', '89569', '南部')
INSERT INTO regions VALUES('测试', '75', '356560', '中部')
INSERT INTO regions VALUES('测试', '77', '34894', '北部')

将结果转储为 JSON

通用结果格式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.totalcount = p1.totalcount;
obj.regions = [];

FOREACH item IN p1.regions;
obj.regions.push({
popularity = item.popularity
region = item.region
count = item.count
});
END;

obj.json %]

起始文本:

[

结束文本:

]

结果示例:

[
{
"regions": [
{
"count": "1902795",
"popularity": 88,
"region": "莫斯科和莫斯科州"
},
{
"count": "2992864",
"popularity": 96,
"region": "中心"
},
{
"count": "926138",
"popularity": 95,
"region": "西北"
},
{
"count": "647140",
"popularity": 112,
"region": "南方"
},
{

"count": "34894",
"popularity": 77,
"region": "北方"
},
],
"totalcount": "10837937"
}
]
提示

另请参阅:结果过滤器

可能的设置

参数默认值描述
AntiGate presetdefault需要预先配置爬虫工具 Util::AntiGateUtil::AntiGate - 指定您的访问密钥和其他参数,然后在此处选择创建的预设
AntiGate preset for Logindefault用于登录的 AntiGate 预设。需要预先配置带有参数的爬虫工具 Util::AntiGateUtil::AntiGate,然后在此处选择创建的预设
TypeAll选择设备类型
AccountsOnly from "accounts.txt"选择账号处理方法:Always auto register - 始终自动“实时”注册账号,需要在 SE::Yandex::Register preset 参数中选择配置好的预设。Auto register if no more in "accounts.txt" - 首先使用 accounts.txt 中的现有账号,如果用完,则使用自动“实时”注册,为此需要选择 SE::Yandex::Register preset 参数中配置好的预设。Only from "accounts.txt" - 仅使用 accounts.txt 中的现有账号,如果用完,则等待指定时间(Wait new accounts in "accounts.txt" 参数)直到出现新账号
Wait new accounts in "accounts.txt"0accounts.txt 中等待新账号出现的时间
Remove bad accountsAlways, except wrong login/password自动删除“坏”账号:Always - 始终删除。Always, except wrong login/password - 始终删除,除非 Yandex 报告指定的登录名/密码错误。事实是,当 IP 被封禁时,Yandex 可能会对完全正常的账号给出此类消息,因此可以选择保留此类账号以便重复使用。Never - 永不删除。无论选择哪种选项,在代理/浏览器错误时都不会删除账号
SE::Yandex::Register presetdefaultSE::Yandex::RegisterSE::Yandex::Register 选择设置预设
Authorization methodHTTP登录验证方式:HTTP - 快速,对资源要求低。Chrome - 慢,对资源要求高,理论上可以延长账号寿命
Chrome headless如果启用该选项,浏览器将不会显示
Use sessions使用会话
Do not reset session if authorization passed如果爬虫工具已经登录,发生错误时不重置会话
Use Wordstat 2使用 Wordstat 2
Wordstat 2 parse all table data允许立即导出查询的所有 2000 个结果,无需遍历分页