跳转到主要内容

Rank::MajesticSEO - majesticseo.com 外部链接数量爬虫工具

Majestic 爬虫工具概览

Majestic 爬虫工具是 SEO 专家最常用的爬虫工具之一,因为它可以获取诸如 Trust Flow 和 Citation Flow 等重要指标。借助自动化的多线程 A-Parser 爬虫工具,您可以抓取以下数据:引用域数量、反向链接数量、已收录页面数量。

A-Parser 的功能允许您保存数据抓取设置以便将来使用(预设)、设置数据抓取计划等等。

得益于 A-Parser 的多线程工作方式,仅使用 50 个线程,请求处理速度即可达到每分钟 100 次请求。

爬虫工具概览:运行速度

由于内置了强大的模板引擎 Template Toolkit,您可以按所需的任何形式和结构保存结果,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV

采集的数据

数据采集自 www.majesticseo.com 服务

  • 引用域数量
  • 反向链接数量
  • 已收录页面数量
  • Trust Flow 和 Citation Flow 指标

应用场景

  • 获取域名的汇总信息
  • 评估反向链接数量
  • 评估域名流量

查询

查询时需要指定域名列表,例如:

a-parser.com  
yandex.ru
google.com
vk.com
facebook.com
youtube.com

结果输出选项

得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(例如 CSV 或 JSON)输出结果。

导出结果列表

结果格式:

$query - domains: $domains, backlinks: $backlinks, trust: $trustflow, citation: $citationflow, indexed: $indexed\n

结果中显示了域名、反向链接数量、引用 IP 地址数量、信任度、引用度、已收录页面。

结果示例:

facebook.com - domains: 28384898, backlinks: 83357892873, trust: 99, citation: 99, indexed: 6743835203
a-parser.com - domains: 380, backlinks: 90219, trust: 12, citation: 38, indexed: 16121
yandex.ru - domains: 592182, backlinks: 1751277762, trust: 88, citation: 82, indexed: 92468056
google.com - domains: 21134537, backlinks: 32206959211, trust: 100, citation: 100, indexed: 3278520318
vk.com - domains: 1145676, backlinks: 3235015237, trust: 90, citation: 85, indexed: 372205938
...

输出到 CSV 表格

内置工具 $tools.CSVLine 允许创建正确的表格文档,以便导入 Excel 或 Google 表格。

结果格式:

[% tools.CSVline(query.orig,domains,trustflow,citationflow,indexed) %]

文件名:

$datefile.format().csv

起始文本:

域名,引用域,信任度,引用度,收录量

结果示例:

域名,引用域,信任度,引用度,收录量
a-parser.com,380,12,38,16121
yandex.ru,592182,88,82,92468056
vk.com,1145676,90,85,372205938
facebook.com,28384898,99,99,6743835203
google.com,21134537,100,100,3278520318
提示

结果格式中使用 Template Toolkit 模板引擎 来输出结果。

在结果文件名中,只需将文件扩展名更改为 csv。

要在任务编辑器中使“Prepend text”选项可用,需要激活“More options”。 在“Prepend text”中按逗号分隔写入列名,并将第二行留空。

保存为 SQL 格式

结果格式:

INSERT INTO serp VALUES('$query.orig', '$domains', '$backlinks', '$trustflow', '$citationflow', '$indexed')\n

结果示例:

INSERT INTO serp VALUES('google.com', '21134537', '32206959211', '100', '100', '3278520318')
INSERT INTO serp VALUES('vk.com', '1145676', '3235015237', '90', '85', '372205938')
INSERT INTO serp VALUES('yandex.ru', '592182', '1751277762', '88', '82', '92468056')
INSERT INTO serp VALUES('a-parser.com', '380', '90219', '12', '38', '16121')
INSERT INTO serp VALUES('facebook.com', '28384898', '83357892873', '99', '99', '6743835203')

将结果转储为 JSON

通用结果格式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = p1.query.orig;
obj.indexed = p1.indexed;
obj.domains = p1.domains;
obj.citationflow = p1.citationflow;
obj.trustflow = p1.trustflow;
obj.backlinks = p1.backlinks;

obj.json %]

起始文本:

[

结束文本:

]

结果示例:

[
{"indexed":"372205938","domains":"1145676","citationflow":"85","query":"vk.com","trustflow":"90","backlinks":"3235015237"},
{"indexed":"92468056","domains":"592182","citationflow":"82","query":"yandex.ru","trustflow":"88","backlinks":"1751277762"},
{"indexed":"6743835203","domains":"28384898","citationflow":"99","query":"facebook.com","trustflow":"99","backlinks":"83357892873"},
{"indexed":"3278520318","domains":"21134537","citationflow":"100","query":"google.com","trustflow":"100","backlinks":"32206959211"},
{"indexed":"16121","domains":"380","citationflow":"38","query":"a-parser.com","trustflow":"12","backlinks":"90219"}
]
提示

要在任务编辑器中使“Prepend text”和“Append text”选项可用,需要激活“More options”。

结果处理

A-Parser 允许在数据抓取过程中直接处理结果,在本节中,我们列出了 Rank::MajesticSEO 爬虫工具最常用的案例

保存具有所需信任度的域名

添加过滤器,并在下拉列表中选择变量检查值 $trustflow - Trust flow。选择类型,例如:>。接下来,在Number (数值)中填入我们需要的值 10。通过此过滤器,您可以排除所有 Trust flow 值小于 10 的结果。

过滤器使用示例
下载示例

如何将示例导入 A-Parser

eJx9VFFP20AM/ivRCaRNggoe9lK0SQWt0iagDMpT24cjcbqjl3O4u5RWUf479iW9
tMD21Nr+7LM/f3EtvHQrd2fBgXdiOKtFGf6LobiXZjUc3shncF6lDz8nyWkyVtqD
TWAji1KDOBGltA4sZ84+JlA8g1xW2ouTWvhtCVQW12CtyjhZZWSXFjdbC94qcORb
S10x7PzsTDT/zgruHm0R/f/g6V+LxV6CtxXswfMwFoVpdu6W6tvK+VzjKznb6LSF
/jjokQwsvUJDlgPjRLNY7Kq4MdpCcrHZcZJJL5PvSd1cJMncsDV4qcBuyVeet38H
aNXyYhfNsJDKuDbeGTH4JNOVVmbVhaMZAbH9FhDNCEiVl9x3j9n3RJgyGWwgaxGd
wcHjxVGIPzs087mJzLkHuYYptpRC7ybdwK0smDROBI4O8sDPl68DvyGBCJllihuQ
uiWORdWT+WjUSyDdIGGZMNLLmLbKy4JQILC4I30mjoItqEQVcv+0OWKYS+3gRDhq
dSypkex9RNG6pUc7Caslfy3QjLS+hjXoHhbqX1ZKZ/QFjHJK+tUlfg6ZfKjRxPH2
nyLtvlrqIVYJ1uXkps/K8BqXNHn2RHNrVShPtrvCyrDeWJYrgDJydsucFWghPtNV
7l6n778Ewx9Kv7JR2bsOxjhYy6EzJfmo5aT7+HbIykzpyEzMFfLR4LlMpTWtxcF9
L4+R69bARt/g++Sr8ASPvrsswiNq9/uhbbW0iuT3jRssiMn9V7uSqdT68f56PyJ6
SZEhT9urNkixmJutZNkPbDU3S8Ql6Ta416v2N5cpPCF2luDyHpZIwqPhm0W8kPHE
1p/cyWHd0FKf3V2LZQYYST6i0oXzct68AXxQ/Fc=
提示

另请参阅:结果过滤器

可能的设置

参数名称默认值描述
Check typeRoot domain允许选择检查类型:Root Domain / Subdomain / URL
Use Chrome (Slow)指定所有请求使用 Chrome 浏览器
Use Headless mode for Chrome为通过浏览器的请求使用 Headless 模式
Use Stealth mode for Chrome在通过浏览器请求时伪装浏览器使用情况
Use HTTP2 for requests without Chrome为不使用浏览器的请求使用 HTTP/2
Emulate browser headers for requests without Chrome在不使用浏览器的请求中模拟浏览器请求头
User-agent for requests without Chrome[% tools.ua.random() %]为不使用浏览器的请求重写 User-Agent
Additional headers for requests without ChromeAccept, Accept-Encoding, Accept-Language允许为不使用浏览器的请求设置请求头。工作原理类似于 Net::HTTPNet::HTTP 中的 Additional headers。