Chuyển đến nội dung chính

Sử dụng nhiều công cụ cào dữ liệu trong một tác vụ

Tính năng

A-Parser hỗ trợ xử lý truy vấn bằng nhiều công cụ cào dữ liệu cùng lúc, cho phép:

  • Cào dữ liệu kết quả từ nhiều công cụ tìm kiếm cùng một lúc
  • Phân tích tên miền theo nhiều thông số khác nhau
  • Thu thập từ khóa đồng thời từ gợi ý của các công cụ tìm kiếm khác nhau và Yandex Wordstat
  • Thu thập thông tin Whois và DNS cho các tên miền
  • Và nhiều kịch bản ứng dụng khác

Thêm công cụ cào dữ liệu

Để thêm một công cụ cào dữ liệu mới, chỉ cần nhấp vào nút Add Parser (Thêm công cụ cào dữ liệu) trong Trình chỉnh sửa tác vụ:

Nút Thêm công cụ cào dữ liệu trong Trình chỉnh sửa tác vụ

Mỗi công cụ cào dữ liệu được đánh số, kết quả của từng công cụ trong trình tạo kết quả và khi định dạng kết quả có thể truy cập thông qua các ký hiệu viết tắt:

$p1, $p2... - trong đó số biểu thị thứ tự của công cụ cào dữ liệu.

Trong định dạng kết quả chung, theo mặc định, kết quả của từng công cụ cào dữ liệu được xuất ra tuần tự, theo định dạng được chỉ định trong cài đặt của từng công cụ cào dữ liệu

Việc sử dụng nhiều công cụ cào dữ liệu trong một tác vụ giúp tăng tốc độ cào dữ liệu tổng thể do số lượng truy vấn đồng thời đến một công cụ cào dữ liệu giảm xuống, từ đó ít bị chặn proxy hoặc hiển thị captcha hơn

Mỗi công cụ cào dữ liệu sẽ cào dữ liệu truy vấn gốc hoặc biến thể của nó khi sử dụng trình tạo truy vấn, và có định dạng truy vấn riêng trong cài đặt, tuy nhiên, không thể chuyển kết quả của công cụ cào dữ liệu trước đó làm truy vấn cho công cụ tiếp theo (tính năng này đã được lên kế hoạch trong tương lai)

Ví dụ về phân tích tên miền

Ví dụ về phân tích tên miền trang web

Trong ví dụ này, chúng ta sử dụng danh sách các tên miền sắp hết hạn (sắp có thể đăng ký lại) làm truy vấn, chúng ta quan tâm đến việc chọn các tên miền có thông số tốt, vì vậy chúng ta đã sử dụng sáu công cụ cào dữ liệu khác nhau:

  • SE::GoogleSE::Google - truy vấn Google theo định dạng site:$query, tìm số lượng trang đã được lập chỉ mục
  • Rank::BingAnalyticsRank::BingAnalytics - tìm xếp hạng toàn cầu của tên miền
  • SE::GoogleSE::Google - truy vấn Google theo định dạng "$query", tìm số lượng lượt nhắc đến tên miền
  • SE::Google::TrustCheckSE::Google::TrustCheck - tìm hiểu mức độ tin cậy của Google đối với trang web
  • SE::Google::SafeBrowsingSE::Google::SafeBrowsing - kiểm tra xem trang web có bị đánh dấu là không an toàn hay không
  • Rank::AhrefsRank::Ahrefs - tìm số lượng liên kết ngược (backlink) trỏ đến tên miền thông qua dịch vụ Ahrefs

Trong định dạng kết quả, chúng ta xuất truy vấn gốc (tên miền) và kết quả từ mỗi công cụ cào dữ liệu theo thứ tự mong muốn:

$query, $p1.totalcount, $p2.globalRank, $p3.totalcount, $p4.trustrank, $p5.exists, $p6.bl\n
Tải xuống ví dụ

Cách nhập ví dụ vào A-Parser

eJy1Vd1v2zYQ/1cMIg/bYKhxuvZBb47X7ANZ7dnOU1wEjHSSWVMkS1J2PCP/++5I
yrLTFOiADXrR8b5+v7vj8cA8dxs3s+DAO5bfH5gJ/yxnY8Xl/m8Y/KIbLpQbXGWX
bMgMtw4smd6zxYc8/1XrWgIqZrwGN5joVvlB62Aws/ppz4YH5vcGMJzegrWiJFNR
ovylBbuvtG24x6Mtly1ZOeEhvwg69vxpeM/mXG3y/FqoOuDxonBoXkLFW+kZWfwP
KFYsQlixCKJPkedL2zo/WUOxOcHxbxOsvTf5mzenRE9zLHgF11bvHNL+b7PEco7X
Fir3XZHvvJAPy9Yqhz/wkKajzzFW2BJufLHmmOHTkKEBRnQ3EUyeKjkcXJhR5rXn
sqDmkHyV1VI/ckmYSH77Qv9z5qnWNqnfZfAknHf0/z57lKuVYsd0C76FpcZ0lQhz
0KFA6SNvCOhFyT2QNot1+uHHzD8RE16WwguN0xUx02z3PO6U+BKIKo22xEWAu7G6
wSMPIUAg2PG9T4RxNFkbfP+KPiyvuHQwZA6h3nAEUr7U4Oxb7rWdGsKD5wem1VjK
W9iC7M1C/OtWyBIv4rhCp9+T4+sm069iPB/pnabCzu8sYjhGCdL19M/eq9S3uu6K
IUUjPMouXDc8pf2wATDHmn0ks0ZbOKZJkVN23DsGFI1Z37Kx6Y/OaJy15fyw0KoS
9TSNbmfZqiUut6ma6MZIIF6qlRLb4mDej8fYpTaQ0AN86TwJKRDW8cowr7V0fywi
VGMFjt87AthgJU+zppAFl/JufnuqIUfntZmqD9a+aF8YDMblVjjdZIVuVoo3Da9l
/C/WAmsT/7EQvNzFf5Ca21KrJDnP7b7mUfrcqoIWaJSkrrGBLukaTphsFJCLg1Ik
lRO1Es6kZG6jpeEqSbu1qCVXZZT2equtXycojDh7qDXeBuwI7p/u9Ti+N4fT7Y3S
6+sbFacLrtsp3WuktK/QA2dmROWfxG00Rzahhm+HrJapSRi+SMM6Ck3D8GGXAxaf
/YRHazIFwl6Gdw+l3W6X1QEi8aLGiwZ0i0HeXw7jgpx3Wa8eju9nPyjIxEQiCFBV
BnOhIy4PyyOROAhgDUWOktRYO7wzUcII+Ll4h0aETfkl38AiHoZ4uNs80RjRzVQb
ZzAe8iWql3HN/QY83pkuXTe6iM125YrWFhCZ8yVIvg/RS9iKAgItt8GR7fweuVJQ
FhK4ag1VhJCEPsWbeuxWPrjo13u3u1PVZty51Gp0l9QL9ozr5rXHPz+g4hsP8le6
s4c0aM8eQDzBo89uFseSNkBKgKskFnb0/A8Hayy4

⏩ Video ví dụ về cách tạo cấu hình từ nhiều công cụ cào dữ liệu

Trong video hướng dẫn này, chúng ta sẽ xem xét cách tạo cấu hình để cào dữ liệu các tên miền theo chủ đề dựa trên từ khóa từ kết quả tìm kiếm Google, và lấy các thông số khác nhau cho các tên miền đó.

Nội dung bài học bao gồm:

  • Cào dữ liệu kết quả tìm kiếm Google
  • Xuất kết quả duy nhất dưới dạng tên miền chính
  • Lấy các thông số như:
    • tên miền đã được đăng ký hay chưa
    • ngày đăng ký và ngày hết hạn của tên miền
    • ngôn ngữ của trang web
    • title và description
    • chỉ số chất lượng trang web
    • vị trí trong bảng xếp hạng toàn cầu Alexa
    • quốc gia có lượng truy cập lớn nhất theo Alexa
    • vị trí trong bảng xếp hạng của quốc gia đó theo Alexa