跳转到主要内容

概览与应用

A-Parser 中所有现有内置爬虫工具的按主题分类列表,包含说明及对应页面链接。

搜索引擎爬虫工具

爬虫工具名称描述
SE::GoogleSE::Google抓取 Google 搜索结果的所有数据:链接、锚文本、摘要、相关关键词、广告位抓取。支持多线程,绕过 ReCaptcha
SE::YandexSE::Yandex抓取 Yandex 搜索结果的所有数据:链接、锚文本、摘要、相关关键词、广告位抓取。最大抓取深度
SE::AOLSE::AOL抓取 AOL 搜索结果的所有数据:链接、锚文本、摘要
SE::BingSE::Bing抓取 Bing 搜索结果的所有数据:链接、锚文本、摘要、相关关键词。最大抓取深度
SE::BaiduSE::Baidu抓取百度搜索结果的所有数据:链接、锚文本、摘要、相关关键词
SE::BaiduSE::Baidu抓取百度搜索结果的所有数据:链接、锚文本、摘要、相关关键词
SE::DogpileSE::Dogpile抓取 Dogpile 搜索结果的所有数据:链接、锚文本、摘要、相关关键词
SE::DuckDuckGoSE::DuckDuckGo抓取 DuckDuckGo 搜索结果的所有数据:链接、锚文本、摘要
SE::SeznamSE::Seznam捷克搜索引擎 seznam.cz 爬虫工具:链接、锚文本、摘要、相关关键词
SE::YahooSE::Yahoo抓取 Yahoo 搜索结果的所有数据:链接、锚文本、摘要、相关关键词。最大抓取深度
SE::YoutubeSE::Youtube抓取 Youtube 搜索结果数据:链接、标题、描述、用户名、预览图链接、观看次数、视频时长
SE::AskSE::Ask通过 Ask.com 抓取 Google 美国搜索结果:链接、锚文本、摘要、相关关键词
SE::RamblerSE::Rambler抓取 Rambler 搜索结果的所有数据:链接、锚文本、摘要
SE::StartpageSE::Startpage抓取 Startpage 搜索结果的所有数据:链接、锚文本、摘要

示例

搜索引擎排名爬虫工具

爬虫工具名称描述
SE::Google::PositionSE::Google::Position在 Google 中按关键词检查网站排名:链接、所有排名位置列表
SE::Yandex::PositionSE::Yandex::Position在 Yandex 中按关键词检查网站排名:链接、所有排名位置列表
SE::Bing::PositionSE::Bing::Position在 Bing 中按关键词检查网站排名:链接、所有排名位置列表

示例

搜索引擎建议爬虫工具

爬虫工具名称描述
SE::Google::SuggestSE::Google::SuggestGoogle 建议爬虫工具:查询结果数、查询建议、查询类型
SE::Yandex::SuggestSE::Yandex::SuggestYandex 建议爬虫工具:查询结果数、查询建议
SE::Bing::SuggestSE::Bing::SuggestBing 建议爬虫工具:查询结果数、查询建议
SE::Aol::SuggestSE::Aol::SuggestAol 建议爬虫工具:查询结果数、查询建议
SE::Yahoo::SuggestSE::Yahoo::SuggestYahoo 建议爬虫工具:查询结果数、查询建议
SE::Youtube::SuggestSE::Youtube::SuggestYoutube 建议爬虫工具:查询建议

示例

关键词爬虫工具

爬虫工具名称描述
SE::Google::TrendsSE::Google::TrendsGoogle 趋势关键词爬虫工具
SE::Yandex::WordCraftSE::Yandex::WordCraft使用 Yandex Webmaster WordCraft 抓取 Yandex 搜索中的用户查询和热门网站
SE::Yandex::WordstatSE::Yandex::Wordstat从 wordstat.yandex.ru 服务抓取关键词和展示统计数据
SE::Yandex::Wordstat::ByDateSE::Yandex::Wordstat::ByDate按月或周抓取 Yandex WordStat 展示统计数据,关键词统计
Rank::Bukvarix::DomainRank::Bukvarix::Domain从 Bukvarix 按域名采集关键词:关键词、频率、排名
Rank::Bukvarix::KeywordRank::Bukvarix::Keyword从 Bukvarix 按关键词采集相关词:关键词、频率、排名
Rank::Ahrefs::KeywordDifficultyRank::Ahrefs::KeywordDifficulty关键词难度、关键词、关键词数量
Rank::Ahrefs::KeywordGeneratorRank::Ahrefs::KeywordGeneratorAhrefs 关键词采集:关键词创意、带关键词的问题
SE::Google::KeywordPlannerSE::Google::KeywordPlanner采集建议、关键词、竞争程度、最低和最高出价
SE::Yandex::DirectSE::Yandex::Direct特定查询的广告数量、标题、文本和域名、链接、锚文本、标签

示例

账号注册

爬虫工具名称描述
SE::Yandex::RegisterSE::Yandex::Register在 Yandex 中注册账号

示例

网站和域名参数爬虫工具

爬虫工具名称描述
SE::Google::TrustCheckSE::Google::TrustCheck检查网站信任度
SE::Google::CompromisedSE::Google::Compromised检查是否存在 "This site may be hacked" 标记
SE::Google::SafeBrowsingSE::Google::SafeBrowsing检查域名是否在 Google 黑名单中
SE::Yandex::SafeBrowsingSE::Yandex::SafeBrowsing检查域名是否在 Yandex 黑名单中
SE::Yandex::SQISE::Yandex::SQI检查 Yandex 网站质量指数 (SQI)
Net::WhoisNet::Whois确定域名是否已注册、域名创建日期以及注册到期日期
Net::DnsNet::Dns将域名解析为 IP 地址的爬虫工具
Rank::CmsRank::Cms识别所有热门论坛、博客、CMS、留言板、维基及许多其他类型的引擎
Rank::ArchiveRank::Archive抓取网站在 Web Archive 中首次和最后一次缓存的日期
Rank::MajesticSEORank::MajesticSEO从 majesticseo.com 服务抓取反向链接数量
Rank::MustatRank::Mustat评估网站流量,以及域名价值和评级
Rank::Social::SignalRank::Social::Signal社交信号爬虫工具
Rank::CurlieRank::Curlie检查网站是否在 Curlie 目录中(DMOZ 的替代品)
Rank::AhrefsRank::Ahrefsahrefs.com 爬虫工具
Rank::KeysSoRank::KeysSokeys.so 爬虫工具
Rank::MOZRank::MOZMOZ 爬虫工具
SecurityTrails::IpSecurityTrails::Ip按 IP 采集域名
SecurityTrails::DomainSecurityTrails::DomainSecurityTrails 爬虫工具

示例

各种服务爬虫工具

爬虫工具名称描述
SE::Yandex::RegisterSE::Yandex::Register支持在 Yandex 中注册账号
SE::Bing::TranslatorSE::Bing::Translator通过 www.bing.com/translator/ 服务进行翻译
SE::Google::TranslateSE::Google::TranslateGoogle 翻译
SE::Yandex::TranslateSE::Yandex::TranslateYandex 翻译
SE::Bing::ImagesSE::Bing::ImagesBing 搜索引擎图片爬虫工具
SE::Google::ImagesSE::Google::ImagesGoogle 关键词图片爬虫工具
SE::Google::ByImageSE::Google::ByImage以图搜图
SE::Yandex::ImagesSE::Yandex::ImagesYandex 关键词图片爬虫工具
SE::Yandex::ByImageSE::Yandex::ByImage从 Yandex 通过链接抓取图片
SE::DuckDuckGo::ImagesSE::DuckDuckGo::Images从 DuckDuckGo 抓取图片
SE::Dogpile::ImagesSE::Dogpile::Images从 Dogpile 抓取图片
Util::AntiGateUtil::AntiGate通过 AntiGate 服务识别验证码
Util::YandexRecognizeUtil::YandexRecognize识别 Yandex 验证码
Util::ReCaptcha2Util::ReCaptcha2识别来自 Anti-captcha.com、Rucaptcha.com、Capmonster、Capmonster.cloud、Xevil、2captcha、R.I.P.captcha 资源的 ReCaptcha
SEO::PingSEO::Ping向支持 Weblog API 的服务(Google Blog Search、Feed Burner、Ping-o-Matic 等)批量发送 Ping 请求
Check::RosKomNadzorCheck::RosKomNadzor在俄罗斯联邦电信、信息技术和大众传媒监督局 (Roskomnadzor) 数据库中检查网站
SE::Yandex::SpellerSE::Yandex::Speller通过 Yandex.Speller 检查页面文本错误
GooglePlay::AppsGooglePlay::AppsGoogle Play 应用爬虫工具
Social::Instagram::PostSocial::Instagram::PostInstagram 帖子数据爬虫工具
Social::Instagram::ProfileSocial::Instagram::ProfileInstagram 个人资料数据爬虫工具
Social::Instagram::TagSocial::Instagram::TagInstagram 按标签抓取帖子
Social::Instagram::GeoSocial::Instagram::GeoInstagram 指定位置帖子爬虫工具
Telegram::GroupScraperTelegram::GroupScraperTelegram 公开群组数据爬虫工具
API::Server::RedisAPI::Server::Redis通过 Redis 与 A-Parser 交互
SE::Google::CacheSE::Google::Cache检查 Google 缓存中是否存在页面
Social::Instagram::GeoSocial::Instagram::GeoInstagram 指定位置帖子爬虫工具
DeepL::TranslatorDeepL::Translator通过 www.deepl.com 服务翻译文本
CoinMarketCap::LastPriceCoinMarketCap::LastPriceCoinMarketCap 商店爬虫工具:代币名称、当前美元价格

示例

商店爬虫工具

爬虫工具名称描述
Shop::AmazonShop::Amazonamazon.com 搜索结果爬虫工具
Shop::Yandex::MarketShop::Yandex::MarketYandex.Market 爬虫工具
Shop::AliExpressShop::AliExpressShop::AliExpress 搜索结果爬虫工具
Shop::eBayShop::eBayEbay 搜索结果爬虫工具
Shop::Wildberries::ProductsListShop::Wildberries::ProductsListWildberries 商品列表爬虫工具
Shop::Wildberries::ProductInfoShop::Wildberries::ProductInfoWildberries 商品详情页爬虫工具
Shop::Wildberries::SuggestShop::Wildberries::SuggestWildberries 搜索建议爬虫工具
Shop::Yandex::MarketShop::Yandex::MarketYandex.Market 商品爬虫工具

示例

地图爬虫工具

爬虫工具名称描述
Maps::GoogleMaps::GoogleGoogle 地图爬虫工具:机构名称、地址和坐标、评分、评论数量和价格政策、网站、电话、照片
Maps::YandexMaps::YandexYandex 地图爬虫工具:机构名称、地址和坐标、评分、评论数量和价格政策、网站、电话、照片、社交网络

示例

内容爬虫工具

爬虫工具名称描述
Check::BackLinkCheck::BackLink在链接库中检查您的链接是否存在
HTML::LinkExtractorHTML::LinkExtractor抓取指定网站的外部和内部链接,可按选定层级抓取内部链接
HTML::ArticleExtractorHTML::ArticleExtractor文章爬虫工具
HTML::TextExtractorHTML::TextExtractor文本块爬虫工具
HTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect识别页面语言,无需使用第三方服务
HTML::EmailExtractorHTML::EmailExtractor从网站页面抓取电子邮件地址
Net::HTTPNet::HTTP下载指定页面,支持多页抓取

示例