HTML::LinkExtractor - Công cụ cào dữ liệu liên kết nội bộ và bên ngoài từ trang web chỉ định
Tổng quan về công cụ cào dữ liệu

HTML::LinkExtractor – công cụ cào dữ liệu liên kết ngoài và nội bộ từ trang web chỉ định. Hỗ trợ cào dữ liệu đa trang và chuyển qua các trang nội bộ của trang web đến độ sâu chỉ định, cho phép đi qua tất cả các trang của trang web, thu thập các liên kết nội bộ và bên ngoài. Có tích hợp các công cụ vượt qua bảo vệ CloudFlare và cũng có khả năng lựa chọn Chrome làm công cụ để cào email từ các trang mà dữ liệu được tải bằng script. Có khả năng đạt tốc độ lên đến 2000 truy vấn mỗi phút – tương đương với 120 000 liên kết mỗi giờ.Các trường hợp ứng dụng công cụ cào dữ liệu
Thu thập tất cả các liên kết ngoài từ trang web

- Thêm tùy chọn Parse to level (Cào dữ liệu đến cấp độ), trong danh sách chọn giá trị
10(chuyển qua các trang lân cận đến cấp độ thứ 10). - Thêm tùy chọn Result format, nhập giá trị
$extlinks.format('$link\n')(xuất các liên kết ngoài). - Trong phần Queries (Truy vấn), đánh dấu vào tùy chọn
Unique queries. - Trong phần Results (Kết quả), đánh dấu vào tùy chọn
Unique string. - Nhập liên kết đến trang web cần cào các liên kết ngoài làm truy vấn.
Tải xuống ví dụ
eJxtU01v2zAM/S9CgK5AlrSHXnxLgwZb4dZdm57SHISYztTIoirRWQrD/32U7NjJ
1ptIvsfHL9WCpN/5JwceyItkVQsb3yIRORSy0iTGwkrnwYXwSvxYPqRJkiqzuzuQ
kxtCx4geWwv6tMBstKTQeI6pnM2YIoU9aPbspa4Yc33VnOD34JzK4Ugo0JWSuJa2
hI4iRnAgzeJ+0gK+XYyC+fZmLi5Fs16PRUvxixgODHs96Xrqgy9yD0sMKkrD4F6w
9SjLqJNLghA96lxO6BAyyDxXoTOpW4UwlUH11aiPWKcnp8yW8Ww6BX7hsGQ3QUwS
nJ/HCldiFG3BaarI/9VyREKugrHwXO1Cci15Hyik9hxRBE7yBrJu2Ekt0My0joMe
YDH9baV0zlucFUz62RG/hmT/5Wj6Dk+leGV/HNfQZ4nWbfYwsHJMccuNG+S2tSoV
se3nWJmwmyt27gBsP7bHACvRQS/TZe7U+VAtmHAfw9ZmdnCdtXG2mXPnBk2htll3
c0dkZZb8GzIzx9JqCH2ZSmveiofn4UJmvltDMIYC/yXPo8TZPyJE7e9f2lKtU3yB
N6HAkid5qtql3EitX5/T04gYLoqN30Q2mU7ld4ueFzpRpsCpCESCLfJFcVvNuv+/
/S+vv/zFSd3wwt79U4sO3QUs+3hMnrfBP7b5C6wbebo=
mẹo
Thu thập tất cả các liên kết nội bộ từ trang web
Tương tự như trường hợp đầu tiên, nhưng ở bước 2 cần nhập giá trị $intlinks.format('$link\n') (xuất các liên kết nội bộ).
Tải xuống ví dụ
eJxtU8tu2zAQ/BfCQBrAtZNDL7o5Roy2cOI0j5PjA2GtXNYUyZIrN4Ggf++QkiW7
zY27O7OzL9aCZdiHB0+BOIhsXQuX3iITORWy0izGwkkfyMfwWnx9vltm2VKZ/e0b
e7ll64HosbXgd0dgW8fKmoCYymGmFEs6kIbnIHUFzPVVc4I/kPcqpyOhsL6UjFra
EjqKGCnDGuJh0gI+XYyi+fpqLi5Fs9mMRUsJixSODHc96Xrqg0/yQM82qihNg3sB
616WSSeXTDF61Lmc8FvMIPNcxc6kbhXiVAbVF6N+pzoDe2V2wMP0isLC2xJuppQk
Ot+PFa7FKNkCaarE/9FyRMa+orEIqHYhUUveBwqpAyKKyUtsYNUNO6uFNTOt06AH
WEp/UymdY4uzAqRvHfFjyOq/HE3f4akUVvbHo4Y+S7JuVncDK7dLu0PjxqJtrUrF
sMPcVibu5grOPZHrx3YfYaX11Mt0mTt1HKojE+9j2NrMDa6zNs42c+7cWlOo3aq7
uSOyMs/4DSszt6XTFPsyldbYSqDH4UJmoVtDNIYC/yXPk8TZP2Jrdfj+1JbqvMIF
fokFlpjkqWqXciu1fnlcnkbEcFEwfjK7bDqVn50NWOhEmcJORSQy7SwuCm01m/7/
9r+8/vAXZ3WDhf0KDy06dhex8GFMAdvAj23+ApcrebQ=
Chỉ chuyển qua các liên kết không chứa từ forum

- Thêm tùy chọn Parse to level (Cào dữ liệu đến cấp độ), trong danh sách chọn giá trị
3(chuyển qua các trang lân cận đến cấp độ thứ 3). - Thêm tùy chọn Result format, nhập giá trị
$query. - Thêm bộ lọc. Lọc theo
$followlinks.$i.link - Link, chọn loạiNot contain string, và nhập chuỗi làforum. - Trong phần Queries (Truy vấn), đánh dấu vào tùy chọn
Unique queries. - Trong phần Results (Kết quả), đánh dấu vào tùy chọn
Unique string. - Nhập liên kết đến trang web cần cào các liên kết làm truy vấn.
Tải xuống ví dụ
eJxtVE1v2zAM/S/CDhuQJS2GXXxLgwbd4DZdm57SHISYzrTIkipRaQvD/33UR2xn
6ykh+R75+CG3DLk7uHsLDtCxYtMyE/+zglVQcy+RTZjh1oEN4Q27Wd+WRVEKdbh+
Q8t3qC0hemzL8N0AsbVBoZWjmKjIjClKOIIkz5FLT5hv3Qh+BGtFBSd8rW3DkaQk
BZnBPr14sO/Pz4qNuLWQCEFFhhcbokupXyWpDArCL9tOMnCdWErjTivkQo3yU1nf
kJ3Uk8MB9dBtt6fkbhmFBSnmcppn1Qcf+RHWOkmCwb0k6443sYGKI4ToNHX4+csU
30IGXlUi1OQyVQjTHqo+KfESBTq0Qu0JHwYhwC2tbsiNEJPE6ZwUbvK0Quc+8n8l
DivQepgwR2qXnLRUfaDm0lFE0Jg4bXaVl1i0TKu5lHGBAyymv/JCVnQd85pIPzLx
Y8jqvxxd3+G4FN3CqyUNfZZoXa1uB1alS72PW4z7bQSS7Rbaq7CbC3IeAEw/trsA
a7SFvkzOnKvTAzCgwuENW5ubwXXWxtlmzp10UbXYr/Ixn5BeremVrdRCN0ZC6Et5
KWkrDh6GC5m7vIZgDAL/JS9iibP3iVpL9/MxSTVW0AV+DwIbmuS4ak6541I+PZTj
CBsuiozfiKaYzfjX9PCnO93MWOAh7DUdFHXVbfvPQv/xaD/8OBRtR/v64+4TOjQX
sOSjKbn4yi67v8azl7c=
mẹo
Dữ liệu thu thập được
- Số lượng liên kết ngoài
- Số lượng liên kết nội bộ
- Liên kết ngoài:
- bản thân liên kết
- anchor text
- anchor text đã loại bỏ thẻ HTML
- tham số nofollow
- toàn bộ thẻ
<a>
- Liên kết nội bộ:
- bản thân liên kết
- anchor text
- anchor text đã loại bỏ thẻ HTML
- tham số nofollow
- toàn bộ thẻ
<a>
- Mảng chứa tất cả các trang đã thu thập (được sử dụng khi bật tùy chọn Use Pages)
Tính năng
- Cào dữ liệu đa trang (chuyển trang)
- Chuyển qua các trang nội bộ của trang web đến độ sâu chỉ định (tùy chọn Parse to level) – cho phép đi qua tất cả các trang của trang web, thu thập các liên kết nội bộ và bên ngoài
- Giới hạn số lần chuyển trang (tùy chọn Follow links limit)
- Tự động làm sạch anchor text khỏi các thẻ HTML
- Xác định nofollow cho mỗi liên kết
- Khả năng chỉ định coi các tên miền phụ là trang nội bộ của trang web
- Hỗ trợ nén gzip/deflate/brotli
- Xác định và chuyển đổi bảng mã của trang web sang UTF-8
- Vượt qua bảo vệ CloudFlare
- Lựa chọn công cụ (HTTP hoặc Chrome)
Các phương án sử dụng
- Lấy sơ đồ trang web đầy đủ (lưu tất cả các liên kết nội bộ)
- Lấy tất cả các liên kết ngoài từ trang web
- Kiểm tra liên kết ngược (backlink) trỏ về trang web của mình
Truy vấn
Làm truy vấn, bạn cần chỉ định các liên kết đến các trang cần thu thập liên kết, hoặc điểm bắt đầu (ví dụ: trang chủ của trang web), trong trường hợp sử dụng tùy chọn Parse to level:
https://lenta.ru/
https://a-parser.com/wiki/index/
Các ví dụ về xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ công cụ mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý, cũng như dưới dạng có cấu trúc như CSV hoặc JSON
Xuất các liên kết ngoài và nội bộ cùng với số lượng của chúng
Định dạng kết quả:
External links: $extcount\n$extlinks.format('$link\n')
Internal links: $intcount\n$intlinks.format('$link\n')
Ví dụ kết quả:
External links: 12
https://www.youtube.com/c/AParser_channel
https://t.me/a_parser
https://en.a-parser.com/
https://spyserp.com/ru/
https://sitechecker.pro/
https://arsenkin.ru/tools/
https://spyserp.com/
http://www.promkaskad.ru/
https://www.youtube.com/channel/UCvypGICrfCky8tPtebmIvQw
https://www.facebook.com/AParserRu
https://twitter.com/a_parser
https://www.youtube.com/c/AParser_channel
Internal links: 129
https://a-parser.com/
https://a-parser.com/
https://a-parser.com/a-parser-for-seo/
https://a-parser.com/a-parser-for-business-and-freelancers/
https://a-parser.com/a-parser-for-developers/
https://a-parser.com/a-parser-for-marketing-and-analytics/
https://a-parser.com/a-parser-for-e-commerce/
https://a-parser.com/a-parser-for-cpa/
https://a-parser.com/wiki/features-and-benefits/
https://a-parser.com/wiki/parsers/
Các cài đặt có thể có
ghi chú
| Tên tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Good status | All | Chọn phản hồi nào từ máy chủ sẽ được coi là thành công. Nếu khi cào dữ liệu nhận được phản hồi khác từ máy chủ, truy vấn sẽ được lặp lại với proxy khác |
| Good code RegEx | Khả năng chỉ định biểu thức chính quy để kiểm tra mã phản hồi | |
| Ban Proxy Code RegEx | Khả năng chặn proxy tạm thời (Proxy ban time) dựa trên mã phản hồi của máy chủ | |
| Method | GET | Phương thức truy vấn |
| POST body | Nội dung để truyền lên máy chủ khi sử dụng phương thức POST. Hỗ trợ các biến $query – URL truy vấn, $query.orig – truy vấn gốc và $pagenum - số trang khi sử dụng tùy chọn Use Pages. | |
| Cookies | Khả năng chỉ định cookies cho truy vấn. | |
| User agent | _Tự động chèn user-agent của phiên bản Chrome hiện tại_ | Tiêu đề User-Agent khi truy vấn các trang |
| Additional headers | Khả năng chỉ định các tiêu đề truy vấn tùy ý với sự hỗ trợ của các tính năng công cụ mẫu và sử dụng các biến từ trình tạo truy vấn | |
| Read only headers | ☐ | Chỉ đọc các tiêu đề. Trong một số trường hợp giúp tiết kiệm lưu lượng nếu không cần xử lý nội dung |
| Detect charset on content | ☐ | Nhận dạng bảng mã dựa trên nội dung trang |
| Emulate browser headers | ☐ | Giả lập tiêu đề trình duyệt |
| Max redirects count | 0 | Số lượng chuyển hướng tối đa mà công cụ cào dữ liệu sẽ thực hiện |
| Follow common redirects | ☑ | Cho phép thực hiện chuyển hướng http <-> https và www.domain <-> domain trong phạm vi một tên miền mà không tính vào giới hạn Max redirects count |
| Max cookies count | 16 | Số lượng cookies tối đa để lưu trữ |
| Engine | HTTP (Fast, JavaScript Disabled) | Cho phép chọn công cụ HTTP (nhanh hơn, không có JavaScript) hoặc Chrome (chậm hơn, có bật JavaScript) |
| Chrome Headless | ☐ | Nếu tùy chọn này được bật, trình duyệt sẽ không hiển thị |
| Chrome DevTools | ☑ | Cho phép sử dụng các công cụ gỡ lỗi Chromium |
| Chrome Log Proxy connections | ☑ | Nếu tùy chọn này được bật, thông tin về các kết nối chrome sẽ được ghi vào nhật ký (log) |
| Chrome Wait Until | networkidle2 | Xác định khi nào trang được coi là đã tải xong. Chi tiết về các giá trị. |
| Use HTTP/2 transport | ☐ | Xác định có sử dụng HTTP/2 thay vì HTTP/1.1 hay không. Ví dụ, Google và Majestic sẽ chặn ngay lập tức nếu sử dụng HTTP/1.1. |
| Don't verify TLS certs | ☐ | Tắt xác thực chứng chỉ TLS |
| Randomize TLS Fingerprint | ☐ | Tùy chọn này cho phép vượt qua việc chặn trang web theo dấu vân tay TLS |
| Bypass CloudFlare | ☑ | Tự động vượt qua kiểm tra CloudFlare |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Vượt qua CF thông qua Chrome |
| Bypass CloudFlare with Chrome Max Pages | 20 | Số trang tối đa khi vượt qua CF thông qua Chrome |
| Subdomains are internal | ☐ | Có coi các tên miền phụ là liên kết nội bộ hay không |
| Follow links | Internal only | Những liên kết nào cần chuyển qua |
| Follow links limit | 0 | Giới hạn Follow links, áp dụng cho mỗi tên miền duy nhất |
| Skip comment blocks | ☐ | Có bỏ qua các khối bình luận hay không |