SE::Google - Google 搜索结果爬虫工具

爬虫工具概览
Google 搜索结果爬虫工具是最受欢迎的工具之一,通过它您可以获取庞大的链接库,供后续使用。您可以直接使用在 Google 中输入的查询格式,包括搜索运算符(inurl、intitle 等)。
Google 爬虫工具支持自动扩展查询,确保您能从搜索结果中获得最大数量的结果。此外,A-Parser 还可以自动深入抓取指定深度的相关查询。得益于 A-Parser 的多线程工作,处理速度可达每分钟 3000-7000 个查询,平均每分钟可获取多达 500,000 条链接。
A-Parser 的功能允许您保存数据抓取设置以便后续使用(预设),设置抓取计划等等。您可以使用自动查询扩展、从文件中替换子查询、枚举字母数字组合和列表,以获取尽可能多的结果。
得益于内置强大的模板引擎 Template Toolkit,您可以按所需的格式和结构保存结果,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV。
爬虫工具应用案例
🔗 域名数据抓取
根据 Google 的关键词抓取主题域名,并获取域名的各种参数
🔗 Google News 数据抓取
此预设根据搜索查询抓取 Google 新闻,并收集这些新闻的日期
🔗 检查收录情况
此预设通过遍历指定的链接列表,检查网站页面在 Google 中的收录情况
🔗 竞争程度评估
此预设根据关键词确定 Google 搜索引擎中的竞争程度
🔗 抓取前 3 名搜索结果
此预设保存 Google 搜索结果的前三个摘要
🔗 问答数据抓取
从 People Also Ask 板块收集问题和答案的爬虫工具
采集的数据

- 搜索结果中的链接、锚点和摘要,以及摘要中的日期(如果有)
- 同时采集每个结果的标记信息,目前支持以下标记:Date, AMP, Image Preview, Video, Rich snippet, Featured snippet
- 广告块的存在及其内容,以及它们在页面上的位置
- 查询结果数量(竞争程度)
- 相关关键词列表 (Related keywords)
- 页面上的额外板块:商品轮播、视频等
- 此外,爬虫工具还采集以下附加数据:
- 查询中的拼写错误及修正后的查询
- Google 确定的地理位置
- AMP 页面的存在
- People also ask 列表:问题、答案、来源链接、锚点及媒体链接(通过单独选项 Parse People also ask 开启)
- AI 回答 (AI overview),及其类型和来源列表

功能
Google 搜索引擎爬虫工具拥有众多功能和设置:
- 支持所有 Google 搜索运算符 (site:, inurl: 等)
- 指定结果大小(10、20、30、50 或 100 个结果)和页数(1 到 10),在最高设置下,Google 每个查询会给出 300 到 500 个结果,得益于查询扩展,A-Parser 可以轻松突破此限制
- 自动跳转到相关关键词的功能
- 指定搜索语言和国家,选择本地 Google 域名以及搜索界面的语言
- 可以指定地理位置,从而获取全球任何地点的精确本地搜索结果
- 在桌面端或移动端显示之间进行选择
- 可以选择搜索结果类型,除了主要的有机搜索结果外,Google 爬虫还可以采集新闻、图书或视频结果
- 必要时可以连接通过识别服务或 XEvil/CapMonster 自动识别 ReCaptcha2
- 支持指定搜索时间(全部时间或 24 小时到一年之间的特定间隔)
- 可以禁用 Google 隐藏相似结果的过滤器 (filter=)
- 可以指定当 Google 报告未找到指定查询并提供相似查询结果时,是否抓取该结果
- 可以设置爬虫工具应采集的 People also ask 数量,通过深度点击每个问题
- 可以采集标签
基于 Google 爬虫工具运行的还有以下爬虫工具:
SE::Google::Position - 根据查询列表确定任何网站在搜索结果中的排名
SE::Google::Compromised - 从 Google 的角度检查域名的安全性,能够识别被黑和钓鱼网站
SE::Google::TrustCheck - 检查 Google 对网站的 Trust(信任度)
使用场景
- 采集链接库 - 用于 XRumer, AllSubmitter, GSA Ranker 等
- 完整的 SERP 导出,包括链接、锚点、摘要、广告块和其他信息,允许 SEO 专家和营销人员进行深度分析
- 评估关键词竞争程度
- 评估 PPC(广告)搜索结果中的竞争
- 查找反向链接和网站提及
- 检查网站收录情况
- 寻找有漏洞的网站
- 任何其他涉及通过无限数量查询获取搜索结果的场景
查询
查询应指定为搜索短语,就像直接在 Google 搜索框中输入一样,例如:
购买汽车
莫斯科窗户
site:https://lenta.ru
inurl:guestbook
查询替换
您可以使用内置宏来扩展查询,例如我们想要获取一个非常大的论坛数据库,指定几个不同语言的基础查询:
forum
论坛
foro
论坛
在查询格式中指定从 a 到 zzzz 的字符枚举,此方法可以最大程度地轮换搜索结果并获得大量新的唯一结果:
$query {az:a:zzzz}
该宏将为每个原始搜索查询创建 475254 个额外查询,总计将产生 4 x 475254 = 1901016 个搜索查询,这个数字令人印象深刻,但对于 A-Parser 来说完全不是问题。在每分钟 2000 个查询的速度下,该任务仅需 16 小时即可处理完毕。
使用运算符
您可以在查询格式中使用搜索运算符,这样它将自动添加到列表中的每个查询:
inurl:$query
结果输出示例
得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,允许以任意形式以及结构化形式(如 CSV 或 JSON)输出结果
导出链接列表
结果格式:
$serp.format('$link\n')
结果示例:
https://www.weforum.org/open-forum/
https://www.weforum.org/about/world-economic-forum/
https://www.merriam-webster.com/dictionary/forum
https://en.wikipedia.org/wiki/Forum
https://dictionary.cambridge.org/dictionary/english/forum
https://www.collinsdictionary.com/dictionary/english/forum
https://www.linkedin.com/company/world-economic-forum
https://docs.moodle.org/en/Forum_activity
https://wordpress.org/support/forums/
https://www.facebook.com/worldeconomicforum/
...
链接 + 锚点 + 摘要并输出位置
结果格式:
[% FOREACH item IN serp; loop.count _ ' - ' _ item.link _ ' - ' _ item.anchor _ ' - ' _ item.snippet _ "\n"; END %]
结果示例:
1 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC - 论坛 — 维基百科 - <em>论́坛</em> (拉丁语 forum — 古:坟墓的前庭;压榨机中待处理葡萄的平台;市场广场,城市市场; ...
2 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC_(%D0%BC%D0%B5%D1%80%D0%BE%D0%BF%D1%80%D0%B8%D1%8F%D1%82%D0%B8%D0%B5) - 论坛(活动) — 维基百科 - <em>论坛</em> — 为确定或解决某些<wbr>足够全球性的问题而举行的活动。这个概念出现在 ...
3 - https://support.google.com/googleplay/community?hl=ru - 欢迎来到社区帮助论坛 ... - 欢迎来到 <em>论坛</em> Google Play 社区。精选帖子。查看所有有趣的帖子 · 需要游戏帮助吗?
4 - https://support.google.com/mail/community?hl=en - Gmail Community - Google Support - Welcome to the Gmail Help Community · Featured posts · Categories.
5 - https://www.weforum.org/ - The World Economic Forum - The World Economic Forum is an independent international organization committed to improving the state of the world by engaging business, political, academic ...
6 - https://www.kunena.org/ - Home - Kunena - To Speak! Next Generation Forum ... - Kunena! - To Speak! Next Generation Forum Component for Joomla.
7 - https://forum.adguard.com/index.php - AdGuard Forum - <em>论坛</em> 测试版测试员。在这里编写关于测试版错误的报告。主题:355。消息:11.6K。子论坛:测试版发布评论 ...
8 - https://www.sofiaforum.bg/ - 索非亚安全论坛:讨论平台 ... - 索非亚 <em>论坛</em> 安全 / Sofia Security Forum。
9 - https://forum.keenetic.net/ - Forums - Keenetic Community - Keenetic fan club. A place to meet software developers, get the latest updates, and share experience.
10 - https://forum.euroaion.com/ - Perfect quality European private server of Aion - EuroAion.com - Perfect quality European private server of Aion!
...
将链接、锚点和摘要输出到 CSV 表格
内置工具 $tools.CSVLine 允许创建正确的表格文档,可直接导入 Excel 或 Google 表格。
通用结果格式:
[% FOREACH i IN p1.serp; tools.CSVline(i.link, i.anchor, i.snippet); END %]
文件名:
$datefile.format().csv
起始文本:
链接,锚点,摘要
结果示例:
链接,锚点,摘要
https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC,"论坛 — 维基百科",
https://en.wikipedia.org/wiki/Forum,"Forum - Wikipedia","<em>Forum</em> (plural forums or fora) may refer to: Contents. 1 Common uses; 2 Places. 2.1 Natural features; 2.2 Populated places. 3 Arts and entertainment; 4 Media."
https://www.weforum.org/,"The World Economic Forum","The World Economic <em>Forum</em> is an independent international organization committed to improving the state of the world by engaging business, political, academic ..."
https://support.google.com/webmasters/community?hl=ru,"欢迎来到社区帮助论坛 ...","欢迎来到 <em>论坛</em> Google 搜索中心社区。精选帖子。查看所有有趣的帖子 · 回答 ..."
https://support.google.com/chrome/community?hl=ru,"欢迎来到社区帮助论坛 ...","欢迎来到 <em>论坛</em> Google Chrome 社区。精选 ..."
...
在通用结果格式中应用 Template Toolkit 模板引擎 在 FOREACH 循环中输出 $serp 数组。
在结果文件名中,只需将文件扩展名更改为 csv。
为了使“Prepend text”选项在任务编辑器中可用,需要激活“More options”。 在“Prepend text”中按逗号分隔写入列名,并将第二行留空。
输出广告块
结果格式:
$ads.format('$link - $anchor - $snippet\n')
结果示例:
https://www.rentalcars.com/ - Rent a Car Worldwide - Best Prices Online Guaranteed - Secure Your <em>Car Hire</em> Today. The Best Price Guaranteed. Book at Over 53,000 Locations. Search, Compare and Save Using the World's Biggest Online <em>Car Rental</em> Service.
https://www.kayak.com/United-States-Car-Rentals.253.crc.html - United States from $9/day - Search for Rental Cars on Kayak - Find and Compare Great <em>Car</em> Deals in USA. Book with Confidence on KAYAK®!
https://www.discovercars.com/ - -70% Worldwide Car Rental - Rent Your Car in 5 Minutes - <em>Car rental</em> prices are rising, but if you act fast, you can get a good deal. Don’t stress! We...
https://www.economybookings.com/ - Rent a Car for Summer Holidays - Car Rentals for the Best Price - Theft protection and Third Party liability part of a great deal. Free Mileage included.
...
保存相关关键词
结果格式:
$related.format('$key\n')
结果示例:
test <b>speed</b>
<b>net speed</b> test
<b>google speed</b> test
<b>fast speed</b> test
<b>ping</b> test
<b>xfinity speed</b> test
<b>speed</b> test <b>mobile</b>
test <b>my</b>
...
为了在结果中自动去除 HTML 标签,需要使用结果构造器,选择 $related 数组并应用 Remove HTML tags。
关键词竞争程度
结果格式:
$query - $totalcount\n
结果示例:
speed test mobile - 1080000000
test score - 4020000000
net speed test - 1210000000
fast speed test - 2150000000
speed test - 2500000000
test match - 4160000000
ping test - 425000000
google speed test - 1870000000
识别带错误的关键词
结果格式:
$query - $misspell\n
结果示例:
spead test - 1
test match - 0
speed test - 0
temst match - 1
检查链接收录情况
查询格式:
site:$query
结果格式:
$query.orig - $totalcount\n
结果示例:
https://a-parser.com/pages/buy - 2
https://a-parser.com/wiki/parsers - 4
https://a-parser.com/resources - 883
https://trjkjfkdf.bg.ky - none
https://a-parser.com/forum - 371
为了检查链接收录情况,在查询格式中加入相应的运算符:site:。
结果格式以“原始 URL - 索引中的页数”形式输出。
结果中我们将获得页面地址及其在搜索引擎索引中的数量。
如果页面未被收录,则结果将为:none。
以 SQL 格式保存
结果格式:
[% FOREACH serp; "INSERT INTO serp VALUES('" _ query _ "', '"; link _ "', '"; anchor _ "')\n"; END %]
结果示例:
INSERT INTO serp VALUES('test', 'https://www.speedtest.net/', 'Speedtest by Ookla - The Global Broadband Speed Test')
INSERT INTO serp VALUES('test', 'https://fast.com/', 'Fast.com: Internet Speed Test')
INSERT INTO serp VALUES('test', 'https://www.business-standard.com/article/sports/ind-vs-aus-live-score-4th-day-5-india-vs-australia-live-cricket-score-online-brisbane-weather-121011900103_1.html', 'IND vs AUS 4th Test highlights: India creates history, wins ...')
INSERT INTO serp VALUES('test', 'https://www.test.com/', 'Find online tests, practice test, and test creation software | Test ...')
INSERT INTO serp VALUES('test', 'https://www.espncricinfo.com/series/india-in-australia-2020-21-1223867/australia-vs-india-4th-test-1223872/match-report-4', 'Recent Match Report - Australia vs India 4th Test 2020 ...')
INSERT INTO serp VALUES('test', 'https://www.icc-cricket.com/world-test-championship/standings', 'World Test Championship (2019-2021) Points Table - Live ...')
INSERT INTO serp VALUES('test', 'https://www.icc-cricket.com/rankings/mens/team-rankings/test', 'ICC Test Match Team Rankings International Cricket Council')
INSERT INTO serp VALUES('test', 'https://projectstream.google.com/speedtest', 'Speedtest - Google')
INSERT INTO serp VALUES('test', 'https://www.google.com/search?hl=en&q=Software+Testing&stick=H4sIAAAAAAAAAONgecQ4g5Fb4OWPe8JSfYyT1py8xtjOyMUVnJFf7ppXkllSKaTCxQZlSXHxSHHo5-obmJul5GkwSHFxwXlKwUbuuy5NO8fmKMgABGJm_g5SmlpCXOyexT75yYk5ggpvuB68mfLeXkuYiyMksSI_Lz-3UtCBgcHhx__39kqcnEBND7aoddhrMTTtW3GIjYWDUYCBZxGrQHB-Wkl5YlGqQkhqcUlmXjoAS5B1P7EAAAA&sa=X&ved=2ahUKEwiW-rnmlajuAhWpAGMBHR-JAv4Q6RMwHXoECDQQBQ', '')
...
将结果导出为 JSON
通用结果格式:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.totalcount = p1.totalcount;
obj.links = [];
FOREACH item IN p1.serp;
obj.links.push(item.link);
END;
obj.json %]
起始文本:
[
结束文本:
]
结果示例:
[{"totalcount":"6450000000","links":["https://www.speedtest.net/","https://fast.com/","https://projectstream.google.com/speedtest","https://www.test.com/","https://www.speakeasy.net/speedtest/","https://www.att.com/support/speedtest/","https://speedtest.xfinity.com/","https://developers.google.com/speed/pagespeed/insights/","https://www.espncricinfo.com/series/india-in-australia-2020-21-1223867/australia-vs-india-4th-test-1223872/match-report-4","https://nasional.tempo.co/read/1424570/listyo-sigit-temui-ahy-menjelang-fit-and-profer-test-calon-kapolri","https://www.google.com/search?hl=en&q=Test+Assessment&stick=H4sIAAAAAAAAAONgecRYyC3w8sc9YamMSWtOXmNM4uIKzsgvd80rySypFNLiYoOyFLj4pbj10_UNjQyzKsvyzDQYpHi5kAWUNIxkdl2ado5NTJABCMTKAhyUODmBLIVA-wX2WgxN-1YcYmPhYBRg4FnEyh-SWlyi4FhcnFpcnJuaVwIAwEAP9ogAAAA&sa=X&ved=2ahUKEwj17MzXmajuAhW8CWMBHRlzBP4Q6RMwDHoECBEQBQ"]}]
为了使“Prepend text”和“Append text”选项在任务编辑器中可用,需要激活“More options”。
结果处理
A-Parser 允许在抓取过程中直接处理结果,本节列出了 Google 爬虫工具最常用的案例
链接去重
添加去重,并在下拉列表中选择 $serp.$i.link - Link。
下载示例
eJx9VE1v2zAM/SsFkcMGBEFy2MW3NFiKDVnTNekpyEGNaUOLLGmSnDUw/N9H+ktO
N/Rmko+PfCTlCoLwZ//k0GPwkBwqsM03JLD7miQPxuQK7zZSn/3di5a/S4QpWOE8
OoYfRigKpJiJUgWYVhCuFonEXNA5mXJQpmRbZ96uDoOT6Ml3Eapk2GI+n0P9QZrI
8WRKHWLO4gO44n4tOk4bZcxHKWUvhuRyy8kBSJMlByfDcdoh9i3cU8c6h977oMyr
UJAEV2J9PPYsfm1cIXh4E7uYdZMcgjtxwb2hYCZVrOzXZD2KgqtMUhGQo7OsIfr0
eRbemEGkqQzSaKHaCjz7WLVbTALaEJY+ebprZwpyBWwI2HntuzvApLGjyp9tDiSZ
UB6n4KnVtaBG0vcRGdCJYNzWcj/kr8DopVIbvKCKsIb/vpQqpUNZZpT0rUv8P2T7
D0c9yBuXokX/cdTDwNJY99sfMSs1G5OT8vS1WWYhA9l+1VxPAnNynhHtMLNHnllh
HA5lOuauOr0Ni5qvKq5saaPrRsbNWm6dJ6MzmW+7S+2Rpd7TA9zqlSmsQtalS6Vo
LR6f43ksfbcGNmKD75NXTQmW3r9DCMYo/33XtmqdpPP7wg0WNMlx1Y7yJJR6ed6M
IxBPqjknz7QnutPc0AWRivo4/BGG/0g1/i8kVU1r+eWfWhBrYAj5aBieZs6P+S/t
6pW4
另请参阅:结果去重
按域名进行链接去重
添加去重,并在下拉列表中选择 $serp.$i.link - Link。选择去重类型:Domain。
下载示例
eJx9VE2P2jAQ/SvI4tBKaAWHXnJj6bJqRZftwp4QB0MmyMXxuLZDF0X89844IQ7b
am+ZmffefDq1CNIf/bMDD8GLbFMLG79FJlYPWfaIeNAwWChz9INXo35XMNidB1+x
lMqIkbDSeXBM3PTwFMihkJUOYlSLcLZAcngC51TOQZWTbR2+nR0Ep8CT7yR1xbDJ
eDwWlw9o8gB7rExInMkHcM2VW3BM6zHGPUoV26IgNc4lZxtBPVlyMFlsRy1i3cDz
a++N91HjTmqRBVfBZbu9qvg5ulLyGId2ctfOtAuu5AnWSMFC6ZTZz8l6kiVnGeYy
AEfviij06fNdeGMFmecqKDRSNxl49ilrsyLiGyQsffJ05w5LcgWIAuw8X6vbiGG0
U5c/G47ICqk9jISnUueSCsnfR1QAJwO6peV6yF8LNFOtF3ACnWBR/75SOqdDmRZE
+tYS/w9Z/qNx6drrp6JF/3FUQ6cSrfvlj8TKcYEHXtkuLrNUgWw/i9eTiTE5jwC2
m9kTz6xEB12aVrnNTq/EguGrSiub2uS6aeNmLbfOPZpCHZbtpV6RlVnTU1yaGZZW
A/dlKq1pLR5e0nlMfbsGNlKB78mzmIJbv75DERC1/75qSrVO0fl94QJLmmQ/ayu5
l1q/viz6EZFOKp6TZ9k93ekB6YKoi8u2+yN0f5S6/1/I6gut5Zd/bkDcA0PIR8Pw
NHN+zH8BRVyZDA==
另请参阅:结果去重
提取域名
添加Result Builders (结果构造器),并在下拉列表中选择源:$p1.serp.$i.link - Link。选择类型:Extract Domain。
下载示例
eJx9VE1v2zAM/SuFkMMGBIFz2MW3NGuGDVnTNe0p6EGzaUOLLGqSnCUw8t9HKort
dkNv5scj+cgndyJIv/cPDjwEL/JdJ2z8FrnY3uX5F8Raw83dMThZhJvP2EhlxFRY
6Tw4BuxGeRQooZKtDmLaiXCyQGXwAM6pkoOqJNs6PJ4cBKfAk+8gdctp8yzLxPkd
mKyhwNaEATN/J10rs/cWHMNGiOz88jIVxJBm9Ct0jWSmEzufJdp9cCsP8IQUrFQk
dsWQdS8bbjkpZQCOzqpY6MPHWThyBVmWKig0Ul868JqGrs9G/Y6MDVIuffIiVg4b
cgWIBdh5uk63E5NoCyrRRuyPC0bkldQepsLTqCtJg5RvIyqAkwHdxvI85O8EmoXW
aziAHtJi/dtW6ZJuuqgI9DUB/5+y+afGuac3bkU3+eNohr5KtG433wdUiWusiXn5
k3hr1ahAtl/GQ+ciI+cewPY7u+edNeigb5Mqp+4kZAuGBTCcbGEH1ysar84ycnbC
Y+sK6rfLpjtBQrdxOLMXrJ6kOLi8if5JSOfkifwpPWBSoTgTpkBTqXqTRHrt3Jon
en0bs8TGauA9mVZrOrOHx0FuC5/OysZA+C14GVvwKq9PkGZA7b9tL9StUzTSJybc
0GXGXVPJQmr9/LgeR8Qg0ShPz2UL0n2NpEhiweTSz6D/iXTjX0LenenMv/zDJYk5
cAr5aBmebsjv+C86oZM/
另请参阅:结果构造器
去除锚点和摘要中的标签
添加Result Builders (结果构造器),并在下拉列表中选择源:$p1.serp.$i.anchor - Anchor。选择类型:Remove HTML tags。
再次添加Result Builders (结果构造器),并在下拉列表中选择源:$p1.serp.$i.snippet - Snippet。选择类型:Remove HTML tags。
下载示例
eJyVVD1v2zAQ/SsC4aEFBEMeumhzjLpp4cSp7UxGBlY6qawpkiUpN4bg/947mpaU
NAjQjby79+7rkR3z3B3cgwUH3rF83zETzixn2895/kXrWkKygUYfIbnd3a0Sz2uX
VFY3yVwVP7V1CVdlslXCGKJImeHWgSWy/YgDHSVUvJWepR3zJwOYAkmtFSU5RYl3
Y/XzyYK3AojpyGVLYbMsy9j5HRivodCt8gNm9k64FOrgDFiCjRDZ+ekpZdg91uiW
2jacpjAxs2kcSe/c8iPsNDorERq7YvB2zxtKOSm5B/JOq0D04ePUPxMDL0vhhVZc
XjLQmIasj0r8Dh0rjbF4pEEscdZo8hAIyHi6Vrdnk3BnSNEG7PcLhuUVlw5S5rDU
JcdCytce4cFyr+3aUD1o75hWcylXcAQ5hAX+m1bIEnc6rxD0NQLfDln/w3Hu2xun
wp38sVhDzxJuN+u7AVXqla6x8/IH9i1FIzze3SIsOmcZGg8App/ZPc2s0Rb6NJE5
ZkeRG1AkgGFlczOYXrTxYi0jY8ecbm2B+fZZumcodENbDS+BkX6i5mx4Mbe+keS2
lp/QGKM9SSdCSKZvMbrLe/ovyivmjJhCq0rU66j8azut2uFzX6uFbowEGr5qpUTt
ONgMGp67qBW6DFN8DV6EFLSf67vGMrR037aXeRorsKpPaSx8nDVSFlzKx81q7GGD
7oPmHdEW+JhqjTLHLqi5+MP0v1Y3/mfy7oza+eUeLkHUA4WgDYfhUBj0OfwFH/O5
UQ==
您可以根据需要添加任意次数的结果构造器。
另请参阅:结果构造器
按包含关系过滤链接
添加过滤器,并在下拉列表中选择:$serp.$i.link - Link。选择类型:Contain string。然后在String (字符串)中填写过滤特征。
下载示例
eJx9VE1v2kAQ/StoxSGVEIJDL74RVKpWNKSBnBCHDR5bG9Y72901DbL83zuzNrZJ
qtw8H+/Nm491JYL0J//owEPwItlXwsZvkYjttyT5jphrGK2UDuCUyUcvl5EP8UuZ
kVbmJCbCSufBMXo/AFEghUyWOohJJcLFAnHiGZxTKQdVSrZ1+HZxQIzgyXeWuuS0
+Ww2E/UnMJnDEUsTesz8k3TW6S04hg0QswEkix1SkLpnycleUE+WHLHJw6TN2DXp
RzRBKjOQPD1iQSbaoNCQ7cF4UR8OV0a/QldInuvYzqftkLvgVp5hh40O6N00d3iQ
BfOPUxmAo9MsEt19mYY3ZpBpqrim1E0F3kNf9dmoP1GfQcqlT570ypHWRASIBOy8
XNXtxTja3HEZsb8bjEgyqT1MhCepK0lC0vcRRfORAd0mzoD8lUCz0HoNZ9B9WuS/
L5VO6WgWGYF+tMD/p2w+cNRde8NStPS/jjR0LNG63/zqUSmuMafO05e42EIFsv0y
XlIiZuQ8AdhuZg88swIddGVa5rY6PRsLhi+sX9nC9q6bNm7Wcuuka8pUvmmv9ppZ
mh29zY1ZYmE1cF+m1JrW4uGpP4+Fb9fARi/wPXgZS3Dr1zcpAqL2P7eNVOsUnd9X
FljQJIdVW8qj1Pr5aT2MiP6k4jl5pj3SneZIF0Rd1Ifu79D9YqrhPyKpalrLq39s
krgHTiEfDcPHlzSv/wHtZp3U
另请参阅:结果过滤器
可能的设置
区域参数
Google domain - 使用的 Google 域名,默认为 google.com
Results language - 搜索选定语言的页面,在浏览器中对应“高级搜索” -> “其他设置” -> 搜索语言 (url 参数 lr)。默认未设置,表示根据 IP 自动确定
提示:截图

Interface language - Google 产品的语言,在浏览器中对应“语言” -> 界面语言 (url 参数 hl)。默认选择英语
提示:截图

Search from country - 选择搜索区域,在浏览器中对应“语言” -> 搜索区域 (url 参数 gl)。默认未设置,表示根据 IP 自动确定
提示:截图

Narrow results by region - 搜索在特定国家/地区创建的页面,在浏览器中对应“高级搜索” -> “其他设置” -> 国家/地区 (url 参数 cr)。默认未设置,表示禁用此选项
提示:截图

Location (city) - 精确的搜索位置,在浏览器中根据用户位置自动确定。默认未设置,表示根据请求 IP 自动确定
提示:截图

所有区域参数都会在不同程度上影响搜索结果。
| 参数名称 | 默认值 | 描述 |
|---|---|---|
| Device | Desktop | 选择桌面端或移动端搜索结果:Desktop / Mobile |
| Pages count | 5 | 抓取的页数(1 到 100) |
| Parse pages links from first page | ☑ | 从搜索结果的第一页采集所有可用的分页链接。仅在 Device 为 Desktop 时生效;对移动端搜索结果无效 |
| Serp type | Default (All) | 确定是从主页、新闻还是博客抓取 (Books, News, Videos) |
| Hide omitted results | ☑ | 确定是否隐藏被省略的结果 (参数 filter=) |
| Serp time | Anytime | 搜索结果时间(时间敏感搜索,参数 tbs=,可选值:Past 1 hour, Past 24 hours, Past week, Past month, Past year) |
| Parse not found | ☑ | 确定当 Google 报告未找到指定查询并提供另一个查询的结果时,是否抓取该结果 |
| Disable autocorrect | ☐ | 允许禁用 Google 的自动纠错,并严格按指定查询抓取结果 |
| Exact match | ☐ | 对应搜索引擎中的“Exact match”选项。注意,此选项会覆盖 Serp time 参数的值(类似于浏览器中这些选项的工作方式)。 |
| Safe search | Blur | 开启“Safe search”的功能 |
| Google domain | www.google.com | 用于抓取的 Google 域名,支持所有域名 (www.google.ac, www.google.com.af, www.google.co.ck 等) |
| Narrow results by region | Any region | 将搜索范围缩小到特定国家/地区的功能 |
| Results language | Auto (Based on IP) | 选择结果语言 (参数 lr=) |
| Search from country | Auto (Based on IP) | 选择发起搜索的国家/地区(地理位置相关搜索,参数 gl=) |
| Interface language | English | 选择 Google 界面语言的功能,以确保爬虫工具与浏览器中的结果最大程度一致 |
| Location (city) | 按城市、区域搜索。可以以 novosibirsk, russia 的形式指定城市;完整的地点列表可以在 Geotargets 找到(副本 - 需使用 Canonical Name 列的值)。同时需要设置正确的 Google 域名 | |
| Util::ReCaptcha2 preset | default | 确定是否使用 Util::ReCaptcha2 来绕过 ReCaptcha |
| Util::AntiGate preset | default | 确定是否使用 Util::AntiGate 来绕过图形验证码 |
| ReCaptcha2 retries | 3 | 在不更换代理的情况下,尝试发送 ReCaptcha 答案的指定次数 |
| ReCaptcha2 pass proxy | ☐ | 允许将代理(用于 Google 请求)和 Cookie(从 Google 响应中获得)传递给 ReCaptcha 识别服务 |
| Use sessions | ☑ | 保存良好的会话,从而实现更快的抓取并减少错误数量。 |
| Don't take session | ☐ | 不使用已保存的良好会话的功能 |
| Additional headers | 允许指定任何自定义请求头 | |
| PAA questions count | 0 | 爬虫工具应为每个查询采集的“People also ask”问答的最大数量 |
| Empty totalcount is error | ☐ | 开启此参数后,如果 $totalcount 缺失,查询将被视为失败,并相应进行重试 |
| Count of retries when result is empty | 10 | 如果搜索结果页面完全为空,重试查询的次数 |
| Redirect browser max pages | 10 | 用于绕过 JavaScript 启用检查保护的浏览器页面数量 |
| Single redirect browser for task | ☑ | 如果任务中指定了多个 Google 爬虫工具 — 为所有子任务仅使用一个浏览器;最大页面数和其他设置取自任务中的第一个 Google 爬虫工具 |

