跳转到主要内容

SE::Yandex::WordCraft - WordCraft 爬虫工具。查询建议与市场分析

img

Yandex WordCraft 爬虫工具概览

Yandex WordCraft (Vordkraft) 是 Yandex Webmaster 服务的一部分,通过它您可以根据流行度和竞争环境选择用于推广和广告的目标查询。有数亿个独特查询可供分析。需求量、展示量、点击量和排名均以过去一年的月平均值给出。

Yandex WordCraft 查询爬虫工具支持自动扩展查询,您可以确信将从搜索结果中获得最大数量的结果。

A-Parser 的功能允许保存数据抓取设置以便将来使用(预设),设置数据抓取计划等等。您可以使用自动扩展查询、从文件中替换子查询、遍历数字字母组合和列表,以便在数据抓取 Yandex Wordstat 时获得尽可能多的结果。

由于内置了强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 TXT、JSON、SQL 和 CSV

账号

要运行 SE::Yandex::WordCraftSE::Yandex::WordCraft 爬虫工具,需要 Yandex 账号。您可以使用 SE::Yandex::RegisterSE::Yandex::Register 爬虫工具注册账号,或者直接将现有账号以支持的格式添加到 files/SE-Yandex/accounts.txt 文件中。

或者可以开启“即时”注册账号。

要使用会话授权,数据行必须采用以下格式: [email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}

采集的数据

  • 用户查询(主要):
    • 查询、竞争度、需求量、点击量
  • 用户查询(补充):
    • 查询、竞争度、需求量、点击量
  • Yandex 搜索中的热门网站(网站):
    • 网站、展示频率、平均排名
  • Yandex 搜索中的热门网站(页面):
    • URL, 展示频率、平均排名、查询数量、标题

应用场景

  • 按关键词评估竞争度(需求量、点击量)
  • 寻找相似主题的新关键词
  • 采集不同主题的大型关键词数据库
  • 任何其他涉及以某种形式对 Yandex Webmaster WordCraft 进行数据抓取的方案

查询

在查询中需要指定关键词,就像直接在 WordCraft 查询搜索框中输入一样,例如:

吸尘器
seo

结果输出变体

A-Parser 支持灵活的结果格式化,得益于内置的模板引擎 Template Toolkit, 这使其能够以任意形式以及结构化形式(例如 CSV 或 JSON)输出结果

默认输出

用户查询列表(主要)的输出示例。 结果格式:

User queries general: $uqg.format('$query,$compet,$demand,$clicks\n')

结果列表:

吸尘器,HIGH,33190,9248
吸尘器,HIGH,31204,8768
吸尘器,HIGH,14097,6082
...
吸尘器,HIGH,791,656
备注

要使用 通用结果格式 输出结果,需要在任务中指定爬虫工具编号 - $p1. (parser 1) 或者 p1. 如果使用 Template Toolkit 模板引擎. 例如:

User queries general: $p1.uqg.format('$query,$compet,$demand,$clicks\n')

关于什么是通用结果格式,请参阅编辑结果格式

输出到 CSV 表格

将用户查询列表(主要)输出到 CSV 表格的示例。 结果格式:

[%  
FOREACH uqg;
tools.CSVline(query,compet,demand,clicks);
END;
%]

将用户查询列表(补充)输出到 CSV 表格的示例。 结果格式:

[%  
FOREACH uqa;
tools.CSVline(query,compet,demand,clicks);
END;
%]

将 Yandex 搜索中的热门网站列表(网站)输出到 CSV 表格的示例。 结果格式:

[%  
FOREACH rs;
tools.CSVline(site,popul,position);
END;
%]

将 Yandex 搜索中的热门网站列表(页面)输出到 CSV 表格的示例。 结果格式:

[%  
FOREACH rp;
tools.CSVline(url,popul,position,queries,title);
END
%]
提示

另请参阅:结果过滤器

选项

  • Parse queries for Rivals pages - 开启此选项后,将为 Rivals pages 中的每个链接采集热门查询。采集的数据以 JSON 对象的形式记录在变量 $rp.$i.queries_json 中。开启此选项会显著增加数据抓取时间,因为爬虫工具会执行许多额外的子请求。

可能的设置

参数默认值描述
AntiGate presetdefault需要预先配置 Util::AntiGateUtil::AntiGate 爬虫工具 - 指定您的访问密钥和其他参数,然后在此处选择创建的预设
AntiGate preset for Logindefault用于登录的 AntiGate 预设。需要预先配置 Util::AntiGateUtil::AntiGate 爬虫工具并设置参数,然后在此处选择创建的预设
AccountsOnly from "accounts.txt"选择账号处理方法:Always auto register - 总是自动“即时”注册账号,需要在 SE::Yandex::Register preset 参数中选择配置好的预设。Auto register if no more in "accounts.txt" - 首先使用 accounts.txt 中的现有账号,如果用完,则使用自动“即时”注册,为此需要相应地在 SE::Yandex::Register preset 参数中选择配置好的预设。Only from "accounts.txt" - 仅使用 accounts.txt 中的现有账号,如果用完,则等待指定时间(Wait new accounts in "accounts.txt" 参数)直到出现新账号。Only by session_id from "accounts.txt" - 通过 Cookie 授权。
Wait new accounts in "accounts.txt"0accounts.txt 中等待新账号出现的时间
Remove bad accountsAlways, except wrong login/password自动删除“坏”账号:Always - 总是删除。Always, except wrong login/password - 总是删除,除非 Yandex 提示登录名/密码错误。事实是,当 IP 被封禁时,Yandex 可能会对完全正常的账号给出此类提示,因此可以选择保留此类账号以供重复使用。Never - 从不删除。无论选择哪种选项,在代理/浏览器错误时都不会删除账号
SE::Yandex::Register presetdefault选择 SE::Yandex::RegisterSE::Yandex::Register 的设置预设
Use sessions使用会话
Do not reset session if authorization passed如果爬虫工具已授权,出错时不重置会话
SE::Yandex::Register presetdefault选择 SE::Yandex::RegisterSE::Yandex::Register 的设置预设