跳转到主要内容

SE::Google - Google 搜索结果爬虫工具

Google

爬虫工具概览

Google 搜索结果爬虫工具是最受欢迎的工具之一,通过它您可以获取庞大的链接库,供后续使用。您可以直接使用在 Google 中输入的查询格式,包括搜索运算符(inurl、intitle 等)。

Google 爬虫工具支持自动扩展查询,确保您能从搜索结果中获得最大数量的结果。此外,A-Parser 还可以自动深入抓取指定深度的相关查询。得益于 A-Parser 的多线程工作,处理速度可达每分钟 3000-7000 个查询,平均每分钟可获取多达 500,000 条链接。

A-Parser 的功能允许您保存数据抓取设置以便后续使用(预设),设置抓取计划等等。您可以使用自动查询扩展、从文件中替换子查询、枚举字母数字组合和列表,以获取尽可能多的结果。

得益于内置强大的模板引擎 Template Toolkit,您可以按所需的格式和结构保存结果,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV

爬虫工具应用案例

采集的数据

采集的数据
  • 搜索结果中的链接、锚点和摘要,以及摘要中的日期(如果有)
    • 同时采集每个结果的标记信息,目前支持以下标记:Date, AMP, Image Preview, Video, Rich snippet, Featured snippet
  • 广告块的存在及其内容,以及它们在页面上的位置
  • 查询结果数量(竞争程度)
  • 相关关键词列表 (Related keywords)
  • 页面上的额外板块:商品轮播、视频等
  • 此外,爬虫工具还采集以下附加数据:
    • 查询中的拼写错误及修正后的查询
    • Google 确定的地理位置
    • AMP 页面的存在
    • People also ask 列表:问题、答案、来源链接、锚点及媒体链接(通过单独选项 Parse People also ask 开启)
    • AI 回答 (AI overview),及其类型和来源列表
采集的数据

功能

Google 搜索引擎爬虫工具拥有众多功能和设置:

  • 支持所有 Google 搜索运算符 (site:, inurl: 等)
  • 指定结果大小(10、20、30、50 或 100 个结果)和页数(1 到 10),在最高设置下,Google 每个查询会给出 300 到 500 个结果,得益于查询扩展,A-Parser 可以轻松突破此限制
  • 自动跳转到相关关键词的功能
  • 指定搜索语言和国家,选择本地 Google 域名以及搜索界面的语言
  • 可以指定地理位置,从而获取全球任何地点的精确本地搜索结果
  • 桌面端移动端显示之间进行选择
  • 可以选择搜索结果类型,除了主要的有机搜索结果外,Google 爬虫还可以采集新闻、图书或视频结果
  • 必要时可以连接通过识别服务或 XEvil/CapMonster 自动识别 ReCaptcha2
  • 支持指定搜索时间(全部时间或 24 小时到一年之间的特定间隔)
  • 可以禁用 Google 隐藏相似结果的过滤器 (filter=)
  • 可以指定当 Google 报告未找到指定查询并提供相似查询结果时,是否抓取该结果
  • 可以设置爬虫工具应采集的 People also ask 数量,通过深度点击每个问题
  • 可以采集标签

基于 Google 爬虫工具运行的还有以下爬虫工具:

使用场景

  • 采集链接库 - 用于 XRumer, AllSubmitter, GSA Ranker 等
  • 完整的 SERP 导出,包括链接、锚点、摘要、广告块和其他信息,允许 SEO 专家和营销人员进行深度分析
  • 评估关键词竞争程度
  • 评估 PPC(广告)搜索结果中的竞争
  • 查找反向链接和网站提及
  • 检查网站收录情况
  • 寻找有漏洞的网站
  • 任何其他涉及通过无限数量查询获取搜索结果的场景

查询

查询应指定为搜索短语,就像直接在 Google 搜索框中输入一样,例如:

购买汽车
莫斯科窗户
site:https://lenta.ru
inurl:guestbook

查询替换

您可以使用内置宏来扩展查询,例如我们想要获取一个非常大的论坛数据库,指定几个不同语言的基础查询:

forum
论坛
foro
论坛

在查询格式中指定从 a 到 zzzz 的字符枚举,此方法可以最大程度地轮换搜索结果并获得大量新的唯一结果:

$query {az:a:zzzz}

该宏将为每个原始搜索查询创建 475254 个额外查询,总计将产生 4 x 475254 = 1901016 个搜索查询,这个数字令人印象深刻,但对于 A-Parser 来说完全不是问题。在每分钟 2000 个查询的速度下,该任务仅需 16 小时即可处理完毕。

使用运算符

您可以在查询格式中使用搜索运算符,这样它将自动添加到列表中的每个查询:

inurl:$query

结果输出示例

得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,允许以任意形式以及结构化形式(如 CSV 或 JSON)输出结果

导出链接列表

结果格式:

$serp.format('$link\n')

结果示例:

https://www.weforum.org/open-forum/
https://www.weforum.org/about/world-economic-forum/
https://www.merriam-webster.com/dictionary/forum
https://en.wikipedia.org/wiki/Forum
https://dictionary.cambridge.org/dictionary/english/forum
https://www.collinsdictionary.com/dictionary/english/forum
https://www.linkedin.com/company/world-economic-forum
https://docs.moodle.org/en/Forum_activity
https://wordpress.org/support/forums/
https://www.facebook.com/worldeconomicforum/
...

结果格式:

[% FOREACH item IN serp;    loop.count _ ' - ' _ item.link _ ' - ' _ item.anchor _ ' - ' _ item.snippet _ "\n"; END %]

结果示例:

1 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC - 论坛 — 维基百科 - <em>论́坛</em> (拉丁语 forum — 古:坟墓的前庭;压榨机中待处理葡萄的平台;市场广场,城市市场;&nbsp;...
2 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC_(%D0%BC%D0%B5%D1%80%D0%BE%D0%BF%D1%80%D0%B8%D1%8F%D1%82%D0%B8%D0%B5) - 论坛(活动) — 维基百科 - <em>论坛</em> — 为确定或解决某些<wbr>足够全球性的问题而举行的活动。这个概念出现在&nbsp;...
3 - https://support.google.com/googleplay/community?hl=ru - 欢迎来到社区帮助论坛 ... - 欢迎来到 <em>论坛</em> Google Play 社区。精选帖子。查看所有有趣的帖子 &middot; 需要游戏帮助吗?
4 - https://support.google.com/mail/community?hl=en - Gmail Community - Google Support - Welcome to the Gmail Help Community &middot; Featured posts &middot; Categories.
5 - https://www.weforum.org/ - The World Economic Forum - The World Economic Forum is an independent international organization committed to improving the state of the world by engaging business, political, academic&nbsp;...
6 - https://www.kunena.org/ - Home - Kunena - To Speak! Next Generation Forum ... - Kunena! - To Speak! Next Generation Forum Component for Joomla.
7 - https://forum.adguard.com/index.php - AdGuard Forum - <em>论坛</em> 测试版测试员。在这里编写关于测试版错误的报告。主题:355。消息:11.6K。子论坛:测试版发布评论&nbsp;...
8 - https://www.sofiaforum.bg/ - 索非亚安全论坛:讨论平台 ... - 索非亚 <em>论坛</em> 安全 / Sofia Security Forum。
9 - https://forum.keenetic.net/ - Forums - Keenetic Community - Keenetic fan club. A place to meet software developers, get the latest updates, and share experience.
10 - https://forum.euroaion.com/ - Perfect quality European private server of Aion - EuroAion.com - Perfect quality European private server of Aion!
...

内置工具 $tools.CSVLine 允许创建正确的表格文档,可直接导入 Excel 或 Google 表格。

通用结果格式:

[%  FOREACH i IN p1.serp;    tools.CSVline(i.link, i.anchor, i.snippet); END  %]

文件名:

$datefile.format().csv

起始文本:

链接,锚点,摘要

结果示例:

链接,锚点,摘要
https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC,"论坛 — 维基百科",
https://en.wikipedia.org/wiki/Forum,"Forum - Wikipedia","<em>Forum</em> (plural forums or fora) may refer to: Contents. 1 Common uses; 2 Places. 2.1 Natural features; 2.2 Populated places. 3 Arts and entertainment; 4 Media."
https://www.weforum.org/,"The World Economic Forum","The World Economic <em>Forum</em> is an independent international organization committed to improving the state of the world by engaging business, political, academic&nbsp;..."
https://support.google.com/webmasters/community?hl=ru,"欢迎来到社区帮助论坛 ...","欢迎来到 <em>论坛</em> Google 搜索中心社区。精选帖子。查看所有有趣的帖子 &middot; 回答&nbsp;..."
https://support.google.com/chrome/community?hl=ru,"欢迎来到社区帮助论坛 ...","欢迎来到 <em>论坛</em> Google Chrome 社区。精选&nbsp;..."
...
提示

通用结果格式中应用 Template Toolkit 模板引擎FOREACH 循环中输出 $serp 数组。

在结果文件名中,只需将文件扩展名更改为 csv。

为了使“Prepend text”选项在任务编辑器中可用,需要激活“More options”。 在“Prepend text”中按逗号分隔写入列名,并将第二行留空。

输出广告块

结果格式:

$ads.format('$link - $anchor - $snippet\n')

结果示例:

https://www.rentalcars.com/ - Rent a Car Worldwide - Best Prices Online Guaranteed - Secure Your <em>Car Hire</em> Today. The Best Price Guaranteed. Book at Over 53,000 Locations. Search, Compare and Save Using the World's Biggest Online <em>Car Rental</em> Service.
https://www.kayak.com/United-States-Car-Rentals.253.crc.html - United States from $9/day - Search for Rental Cars on Kayak - Find and Compare Great <em>Car</em> Deals in USA. Book with Confidence on KAYAK®!
https://www.discovercars.com/ - -70% Worldwide Car Rental - Rent Your Car in 5 Minutes‎ - <em>Car rental</em> prices are rising, but if you act fast, you can get a good deal. Don’t stress! We...
https://www.economybookings.com/ - Rent a Car for Summer Holidays - Car Rentals for the Best Price - Theft protection and Third Party liability part of a great deal. Free Mileage included.
...

结果格式:

$related.format('$key\n')

结果示例:

test <b>speed</b>
<b>net speed</b> test
<b>google speed</b> test
<b>fast speed</b> test
<b>ping</b> test
<b>xfinity speed</b> test
<b>speed</b> test <b>mobile</b>
test <b>my</b>
...
提示

为了在结果中自动去除 HTML 标签,需要使用结果构造器,选择 $related 数组并应用 Remove HTML tags

关键词竞争程度

结果格式:

$query - $totalcount\n

结果示例:

speed test mobile - 1080000000
test score - 4020000000
net speed test - 1210000000
fast speed test - 2150000000
speed test - 2500000000
test match - 4160000000
ping test - 425000000
google speed test - 1870000000

识别带错误的关键词

结果格式:

$query - $misspell\n

结果示例:

spead test - 1
test match - 0
speed test - 0
temst match - 1

检查链接收录情况

查询格式:

site:$query

结果格式:

$query.orig - $totalcount\n

结果示例:

https://a-parser.com/pages/buy - 2
https://a-parser.com/wiki/parsers - 4
https://a-parser.com/resources - 883
https://trjkjfkdf.bg.ky - none
https://a-parser.com/forum - 371
提示

为了检查链接收录情况,在查询格式中加入相应的运算符:site:

结果格式以“原始 URL - 索引中的页数”形式输出。

结果中我们将获得页面地址及其在搜索引擎索引中的数量。

如果页面未被收录,则结果将为:none

以 SQL 格式保存

结果格式:

[%  FOREACH serp;   "INSERT INTO serp VALUES('" _ query _ "', '";   link _ "', '";  anchor _ "')\n"; END  %]

结果示例:

INSERT INTO serp VALUES('test', 'https://www.speedtest.net/', 'Speedtest by Ookla - The Global Broadband Speed Test')
INSERT INTO serp VALUES('test', 'https://fast.com/', 'Fast.com: Internet Speed Test')
INSERT INTO serp VALUES('test', 'https://www.business-standard.com/article/sports/ind-vs-aus-live-score-4th-day-5-india-vs-australia-live-cricket-score-online-brisbane-weather-121011900103_1.html', 'IND vs AUS 4th Test highlights: India creates history, wins ...')
INSERT INTO serp VALUES('test', 'https://www.test.com/', 'Find online tests, practice test, and test creation software | Test ...')
INSERT INTO serp VALUES('test', 'https://www.espncricinfo.com/series/india-in-australia-2020-21-1223867/australia-vs-india-4th-test-1223872/match-report-4', 'Recent Match Report - Australia vs India 4th Test 2020 ...')
INSERT INTO serp VALUES('test', 'https://www.icc-cricket.com/world-test-championship/standings', 'World Test Championship (2019-2021) Points Table - Live ...')
INSERT INTO serp VALUES('test', 'https://www.icc-cricket.com/rankings/mens/team-rankings/test', 'ICC Test Match Team Rankings International Cricket Council')
INSERT INTO serp VALUES('test', 'https://projectstream.google.com/speedtest', 'Speedtest - Google')
INSERT INTO serp VALUES('test', 'https://www.google.com/search?hl=en&q=Software+Testing&stick=H4sIAAAAAAAAAONgecQ4g5Fb4OWPe8JSfYyT1py8xtjOyMUVnJFf7ppXkllSKaTCxQZlSXHxSHHo5-obmJul5GkwSHFxwXlKwUbuuy5NO8fmKMgABGJm_g5SmlpCXOyexT75yYk5ggpvuB68mfLeXkuYiyMksSI_Lz-3UtCBgcHhx__39kqcnEBND7aoddhrMTTtW3GIjYWDUYCBZxGrQHB-Wkl5YlGqQkhqcUlmXjoAS5B1P7EAAAA&sa=X&ved=2ahUKEwiW-rnmlajuAhWpAGMBHR-JAv4Q6RMwHXoECDQQBQ', '')
...

将结果导出为 JSON

通用结果格式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.totalcount = p1.totalcount;
obj.links = [];

FOREACH item IN p1.serp;
obj.links.push(item.link);
END;

obj.json %]

起始文本:

[

结束文本:

]

结果示例:

[{"totalcount":"6450000000","links":["https://www.speedtest.net/","https://fast.com/","https://projectstream.google.com/speedtest","https://www.test.com/","https://www.speakeasy.net/speedtest/","https://www.att.com/support/speedtest/","https://speedtest.xfinity.com/","https://developers.google.com/speed/pagespeed/insights/","https://www.espncricinfo.com/series/india-in-australia-2020-21-1223867/australia-vs-india-4th-test-1223872/match-report-4","https://nasional.tempo.co/read/1424570/listyo-sigit-temui-ahy-menjelang-fit-and-profer-test-calon-kapolri","https://www.google.com/search?hl=en&q=Test+Assessment&stick=H4sIAAAAAAAAAONgecRYyC3w8sc9YamMSWtOXmNM4uIKzsgvd80rySypFNLiYoOyFLj4pbj10_UNjQyzKsvyzDQYpHi5kAWUNIxkdl2ado5NTJABCMTKAhyUODmBLIVA-wX2WgxN-1YcYmPhYBRg4FnEyh-SWlyi4FhcnFpcnJuaVwIAwEAP9ogAAAA&sa=X&ved=2ahUKEwj17MzXmajuAhW8CWMBHRlzBP4Q6RMwDHoECBEQBQ"]}]
提示

为了使“Prepend text”和“Append text”选项在任务编辑器中可用,需要激活“More options”。

结果处理

A-Parser 允许在抓取过程中直接处理结果,本节列出了 Google 爬虫工具最常用的案例

添加去重,并在下拉列表中选择 $serp.$i.link - Link

下载示例

如何将示例导入 A-Parser

eJx9VE1v2zAM/SsFkcMGBEFy2MW3NFiKDVnTNekpyEGNaUOLLGmSnDUw/N9H+ktO
N/Rmko+PfCTlCoLwZ//k0GPwkBwqsM03JLD7miQPxuQK7zZSn/3di5a/S4QpWOE8
OoYfRigKpJiJUgWYVhCuFonEXNA5mXJQpmRbZ96uDoOT6Ml3Eapk2GI+n0P9QZrI
8WRKHWLO4gO44n4tOk4bZcxHKWUvhuRyy8kBSJMlByfDcdoh9i3cU8c6h977oMyr
UJAEV2J9PPYsfm1cIXh4E7uYdZMcgjtxwb2hYCZVrOzXZD2KgqtMUhGQo7OsIfr0
eRbemEGkqQzSaKHaCjz7WLVbTALaEJY+ebprZwpyBWwI2HntuzvApLGjyp9tDiSZ
UB6n4KnVtaBG0vcRGdCJYNzWcj/kr8DopVIbvKCKsIb/vpQqpUNZZpT0rUv8P2T7
D0c9yBuXokX/cdTDwNJY99sfMSs1G5OT8vS1WWYhA9l+1VxPAnNynhHtMLNHnllh
HA5lOuauOr0Ni5qvKq5saaPrRsbNWm6dJ6MzmW+7S+2Rpd7TA9zqlSmsQtalS6Vo
LR6f43ksfbcGNmKD75NXTQmW3r9DCMYo/33XtmqdpPP7wg0WNMlx1Y7yJJR6ed6M
IxBPqjknz7QnutPc0AWRivo4/BGG/0g1/i8kVU1r+eWfWhBrYAj5aBieZs6P+S/t
6pW4
提示

另请参阅:结果去重

添加去重,并在下拉列表中选择 $serp.$i.link - Link。选择去重类型:Domain

下载示例

如何将示例导入 A-Parser

eJx9VE2P2jAQ/SvI4tBKaAWHXnJj6bJqRZftwp4QB0MmyMXxuLZDF0X89844IQ7b
am+ZmffefDq1CNIf/bMDD8GLbFMLG79FJlYPWfaIeNAwWChz9INXo35XMNidB1+x
lMqIkbDSeXBM3PTwFMihkJUOYlSLcLZAcngC51TOQZWTbR2+nR0Ep8CT7yR1xbDJ
eDwWlw9o8gB7rExInMkHcM2VW3BM6zHGPUoV26IgNc4lZxtBPVlyMFlsRy1i3cDz
a++N91HjTmqRBVfBZbu9qvg5ulLyGId2ctfOtAuu5AnWSMFC6ZTZz8l6kiVnGeYy
AEfviij06fNdeGMFmecqKDRSNxl49ilrsyLiGyQsffJ05w5LcgWIAuw8X6vbiGG0
U5c/G47ICqk9jISnUueSCsnfR1QAJwO6peV6yF8LNFOtF3ACnWBR/75SOqdDmRZE
+tYS/w9Z/qNx6drrp6JF/3FUQ6cSrfvlj8TKcYEHXtkuLrNUgWw/i9eTiTE5jwC2
m9kTz6xEB12aVrnNTq/EguGrSiub2uS6aeNmLbfOPZpCHZbtpV6RlVnTU1yaGZZW
A/dlKq1pLR5e0nlMfbsGNlKB78mzmIJbv75DERC1/75qSrVO0fl94QJLmmQ/ayu5
l1q/viz6EZFOKp6TZ9k93ekB6YKoi8u2+yN0f5S6/1/I6gut5Zd/bkDcA0PIR8Pw
NHN+zH8BRVyZDA==
提示

另请参阅:结果去重

提取域名

添加Result Builders (结果构造器),并在下拉列表中选择源:$p1.serp.$i.link - Link。选择类型:Extract Domain

下载示例

如何将示例导入 A-Parser

eJx9VE1v2zAM/SuFkMMGBIFz2MW3NGuGDVnTNe0p6EGzaUOLLGqSnCUw8t9HKort
dkNv5scj+cgndyJIv/cPDjwEL/JdJ2z8FrnY3uX5F8Raw83dMThZhJvP2EhlxFRY
6Tw4BuxGeRQooZKtDmLaiXCyQGXwAM6pkoOqJNs6PJ4cBKfAk+8gdctp8yzLxPkd
mKyhwNaEATN/J10rs/cWHMNGiOz88jIVxJBm9Ct0jWSmEzufJdp9cCsP8IQUrFQk
dsWQdS8bbjkpZQCOzqpY6MPHWThyBVmWKig0Ul868JqGrs9G/Y6MDVIuffIiVg4b
cgWIBdh5uk63E5NoCyrRRuyPC0bkldQepsLTqCtJg5RvIyqAkwHdxvI85O8EmoXW
aziAHtJi/dtW6ZJuuqgI9DUB/5+y+afGuac3bkU3+eNohr5KtG433wdUiWusiXn5
k3hr1ahAtl/GQ+ciI+cewPY7u+edNeigb5Mqp+4kZAuGBTCcbGEH1ysar84ycnbC
Y+sK6rfLpjtBQrdxOLMXrJ6kOLi8if5JSOfkifwpPWBSoTgTpkBTqXqTRHrt3Jon
en0bs8TGauA9mVZrOrOHx0FuC5/OysZA+C14GVvwKq9PkGZA7b9tL9StUzTSJybc
0GXGXVPJQmr9/LgeR8Qg0ShPz2UL0n2NpEhiweTSz6D/iXTjX0LenenMv/zDJYk5
cAr5aBmebsjv+C86oZM/
提示

另请参阅:结果构造器

去除锚点和摘要中的标签

添加Result Builders (结果构造器),并在下拉列表中选择源:$p1.serp.$i.anchor - Anchor。选择类型:Remove HTML tags

再次添加Result Builders (结果构造器),并在下拉列表中选择源:$p1.serp.$i.snippet - Snippet。选择类型:Remove HTML tags

下载示例

如何将示例导入 A-Parser

eJyVVD1v2zAQ/SsC4aEFBEMeumhzjLpp4cSp7UxGBlY6qawpkiUpN4bg/947mpaU
NAjQjby79+7rkR3z3B3cgwUH3rF83zETzixn2895/kXrWkKygUYfIbnd3a0Sz2uX
VFY3yVwVP7V1CVdlslXCGKJImeHWgSWy/YgDHSVUvJWepR3zJwOYAkmtFSU5RYl3
Y/XzyYK3AojpyGVLYbMsy9j5HRivodCt8gNm9k64FOrgDFiCjRDZ+ekpZdg91uiW
2jacpjAxs2kcSe/c8iPsNDorERq7YvB2zxtKOSm5B/JOq0D04ePUPxMDL0vhhVZc
XjLQmIasj0r8Dh0rjbF4pEEscdZo8hAIyHi6Vrdnk3BnSNEG7PcLhuUVlw5S5rDU
JcdCytce4cFyr+3aUD1o75hWcylXcAQ5hAX+m1bIEnc6rxD0NQLfDln/w3Hu2xun
wp38sVhDzxJuN+u7AVXqla6x8/IH9i1FIzze3SIsOmcZGg8App/ZPc2s0Rb6NJE5
ZkeRG1AkgGFlczOYXrTxYi0jY8ecbm2B+fZZumcodENbDS+BkX6i5mx4Mbe+keS2
lp/QGKM9SSdCSKZvMbrLe/ovyivmjJhCq0rU66j8azut2uFzX6uFbowEGr5qpUTt
ONgMGp67qBW6DFN8DV6EFLSf67vGMrR037aXeRorsKpPaSx8nDVSFlzKx81q7GGD
7oPmHdEW+JhqjTLHLqi5+MP0v1Y3/mfy7oza+eUeLkHUA4WgDYfhUBj0OfwFH/O5
UQ==
提示

您可以根据需要添加任意次数的结果构造器。

另请参阅:结果构造器

添加过滤器,并在下拉列表中选择:$serp.$i.link - Link。选择类型:Contain string。然后在String (字符串)中填写过滤特征。

下载示例

如何将示例导入 A-Parser

eJx9VE1v2kAQ/StoxSGVEIJDL74RVKpWNKSBnBCHDR5bG9Y72901DbL83zuzNrZJ
qtw8H+/Nm491JYL0J//owEPwItlXwsZvkYjttyT5jphrGK2UDuCUyUcvl5EP8UuZ
kVbmJCbCSufBMXo/AFEghUyWOohJJcLFAnHiGZxTKQdVSrZ1+HZxQIzgyXeWuuS0
+Ww2E/UnMJnDEUsTesz8k3TW6S04hg0QswEkix1SkLpnycleUE+WHLHJw6TN2DXp
RzRBKjOQPD1iQSbaoNCQ7cF4UR8OV0a/QldInuvYzqftkLvgVp5hh40O6N00d3iQ
BfOPUxmAo9MsEt19mYY3ZpBpqrim1E0F3kNf9dmoP1GfQcqlT570ypHWRASIBOy8
XNXtxTja3HEZsb8bjEgyqT1MhCepK0lC0vcRRfORAd0mzoD8lUCz0HoNZ9B9WuS/
L5VO6WgWGYF+tMD/p2w+cNRde8NStPS/jjR0LNG63/zqUSmuMafO05e42EIFsv0y
XlIiZuQ8AdhuZg88swIddGVa5rY6PRsLhi+sX9nC9q6bNm7Wcuuka8pUvmmv9ppZ
mh29zY1ZYmE1cF+m1JrW4uGpP4+Fb9fARi/wPXgZS3Dr1zcpAqL2P7eNVOsUnd9X
FljQJIdVW8qj1Pr5aT2MiP6k4jl5pj3SneZIF0Rd1Ifu79D9YqrhPyKpalrLq39s
krgHTiEfDcPHlzSv/wHtZp3U
提示

另请参阅:结果过滤器

可能的设置

区域参数

  • Google domain - 使用的 Google 域名,默认为 google.com

  • Results language - 搜索选定语言的页面,在浏览器中对应“高级搜索” -> “其他设置” -> 搜索语言 (url 参数 lr)。默认未设置,表示根据 IP 自动确定

    提示:截图
    结果语言
  • Interface language - Google 产品的语言,在浏览器中对应“语言” -> 界面语言 (url 参数 hl)。默认选择英语

    提示:截图
    界面语言
  • Search from country - 选择搜索区域,在浏览器中对应“语言” -> 搜索区域 (url 参数 gl)。默认未设置,表示根据 IP 自动确定

    提示:截图
    搜索国家/地区
  • Narrow results by region - 搜索在特定国家/地区创建的页面,在浏览器中对应“高级搜索” -> “其他设置” -> 国家/地区 (url 参数 cr)。默认未设置,表示禁用此选项

    提示:截图
    按区域缩小结果
  • Location (city) - 精确的搜索位置,在浏览器中根据用户位置自动确定。默认未设置,表示根据请求 IP 自动确定

    提示:截图
    位置(城市)

所有区域参数都会在不同程度上影响搜索结果。

参数名称默认值描述
DeviceDesktop选择桌面端或移动端搜索结果:Desktop / Mobile
Pages count5抓取的页数(1 到 100)
Parse pages links from first page从搜索结果的第一页采集所有可用的分页链接。仅在 DeviceDesktop 时生效;对移动端搜索结果无效
Serp typeDefault (All)确定是从主页、新闻还是博客抓取 (Books, News, Videos)
Hide omitted results确定是否隐藏被省略的结果 (参数 filter=)
Serp timeAnytime搜索结果时间(时间敏感搜索,参数 tbs=,可选值:Past 1 hour, Past 24 hours, Past week, Past month, Past year)
Parse not found确定当 Google 报告未找到指定查询并提供另一个查询的结果时,是否抓取该结果
Disable autocorrect允许禁用 Google 的自动纠错,并严格按指定查询抓取结果
Exact match对应搜索引擎中的“Exact match”选项。注意,此选项会覆盖 Serp time 参数的值(类似于浏览器中这些选项的工作方式)。
Safe searchBlur开启“Safe search”的功能
Google domainwww.google.com用于抓取的 Google 域名,支持所有域名 (www.google.ac, www.google.com.af, www.google.co.ck 等)
Narrow results by regionAny region 将搜索范围缩小到特定国家/地区的功能
Results languageAuto (Based on IP)选择结果语言 (参数 lr=)
Search from countryAuto (Based on IP)选择发起搜索的国家/地区(地理位置相关搜索,参数 gl=)
Interface languageEnglish选择 Google 界面语言的功能,以确保爬虫工具与浏览器中的结果最大程度一致
Location (city)按城市、区域搜索。可以以 novosibirsk, russia 的形式指定城市;完整的地点列表可以在 Geotargets 找到(副本 - 需使用 Canonical Name 列的值)。同时需要设置正确的 Google 域名
Util::ReCaptcha2 presetdefault确定是否使用 Util::ReCaptcha2Util::ReCaptcha2 来绕过 ReCaptcha
Util::AntiGate presetdefault确定是否使用 Util::AntiGateUtil::AntiGate 来绕过图形验证码
ReCaptcha2 retries3在不更换代理的情况下,尝试发送 ReCaptcha 答案的指定次数
ReCaptcha2 pass proxy允许将代理(用于 Google 请求)和 Cookie(从 Google 响应中获得)传递给 ReCaptcha 识别服务
Use sessions保存良好的会话,从而实现更快的抓取并减少错误数量。
Don't take session不使用已保存的良好会话的功能
Additional headers允许指定任何自定义请求头
PAA questions count0爬虫工具应为每个查询采集的“People also ask”问答的最大数量
Empty totalcount is error开启此参数后,如果 $totalcount 缺失,查询将被视为失败,并相应进行重试
Count of retries when result is empty10如果搜索结果页面完全为空,重试查询的次数
Redirect browser max pages10用于绕过 JavaScript 启用检查保护的浏览器页面数量
Single redirect browser for task如果任务中指定了多个 Google 爬虫工具 — 为所有子任务仅使用一个浏览器;最大页面数和其他设置取自任务中的第一个 Google 爬虫工具