Chuyển đến nội dung chính

SE::Google - Công cụ cào dữ liệu kết quả tìm kiếm Google

Google

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu kết quả tìm kiếm Google là một trong những công cụ được yêu cầu nhiều nhất, nhờ đó bạn có thể nhận được cơ sở dữ liệu khổng lồ về các liên kết sẵn sàng để sử dụng tiếp. Bạn có thể sử dụng các truy vấn giống như cách bạn nhập chúng vào Google, bao gồm cả các toán tử tìm kiếm (inurl, intitle, v.v.).

Công cụ cào dữ liệu Google hỗ trợ tự động nhân bản truy vấn, bạn có thể chắc chắn rằng mình sẽ nhận được số lượng kết quả tối đa từ kết quả tìm kiếm. Ngoài ra, A-Parser có thể tự động chuyển qua các truy vấn liên quan đến độ sâu được chỉ định. Nhờ khả năng làm việc đa luồng của A-Parser, tốc độ xử lý truy vấn có thể đạt tới 3000-7000 truy vấn mỗi phút, cho phép nhận trung bình lên tới 500.000 liên kết mỗi phút.

Chức năng của A-Parser cho phép lưu các cài đặt cào dữ liệu để sử dụng sau này (preset), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế các truy vấn phụ từ tệp, liệt kê các tổ hợp chữ-số và danh sách để có được số lượng kết quả tối đa có thể.

Việc lưu kết quả có thể thực hiện theo hình thức và cấu trúc mà bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Các trường hợp ứng dụng công cụ cào dữ liệu

Dữ liệu thu thập được

Dữ liệu thu thập được
  • Các liên kết, anchor text và snippet từ kết quả tìm kiếm, cũng như ngày tháng từ snippet (nếu có)
    • Thông tin về các cờ (flags) của mỗi kết quả cũng được thu thập, hiện tại hỗ trợ các cờ: Date, AMP, Image Preview, Video, Rich snippet, Featured snippet
  • Sự hiện diện và nội dung của các khối quảng cáo, cũng như vị trí của chúng trên trang
  • Số lượng kết quả cho truy vấn (độ cạnh tranh)
  • Danh sách các từ khóa liên quan (Related keywords)
  • Sự hiện diện của các khối bổ sung trên trang: carousel sản phẩm, video, v.v.
  • Ngoài ra, công cụ cào dữ liệu còn thu thập các dữ liệu bổ sung sau:
    • Sự hiện diện của lỗi chính tả trong truy vấn và truy vấn đã sửa lỗi
    • Vị trí địa lý mà Google xác định
    • Sự hiện diện của các trang AMP
    • Danh sách People also ask: câu hỏi, câu trả lời, liên kết đến nguồn, anchor text của chúng và liên kết đến phương tiện truyền thông (được bật bằng tùy chọn riêng Parse People also ask)
    • Câu trả lời AI (AI overview), loại câu trả lời và danh sách các nguồn
Dữ liệu thu thập được

Tính năng

Công cụ cào dữ liệu hệ thống tìm kiếm Google sở hữu nhiều tính năng và cài đặt:

  • Hỗ trợ tất cả các toán tử tìm kiếm của Google (site:, inurl:, v.v.)
  • Chỉ định kích thước kết quả (10, 20, 30, 50 hoặc 100 kết quả) và chỉ định số lượng trang (từ 1 đến 10), với cài đặt tối đa Google trả về từ 300 đến 500 kết quả cho một truy vấn, nhờ tính năng nhân bản truy vấn A-Parser dễ dàng vượt qua giới hạn này
  • Khả năng tự động chuyển qua các từ khóa liên quan
  • Chỉ định ngôn ngữ và quốc gia của kết quả, khả năng chọn tên miền Google địa phương, cũng như ngôn ngữ giao diện của kết quả
  • Khả năng chỉ định vị trí địa lý, cho phép nhận được kết quả tìm kiếm địa phương chính xác cho bất kỳ nơi nào trên thế giới
  • Lựa chọn giữa hiển thị máy tính để bàn hoặc di động
  • Khả năng chọn loại kết quả, ngoài kết quả tìm kiếm tự nhiên chính, công cụ cào dữ liệu Google có thể thu thập kết quả tin tức, sách hoặc video
  • Nếu cần, có thể kết nối tự động giải ReCaptcha2 thông qua các dịch vụ giải mã hoặc qua XEvil/CapMonster
  • Hỗ trợ chỉ định thời gian của kết quả (tất cả thời gian hoặc trong một khoảng thời gian nhất định từ 24 giờ đến một năm)
  • Khả năng tắt bộ lọc của Google về việc ẩn các kết quả tương tự (filter=)
  • Khả năng chỉ định có cào dữ liệu hay không nếu Google thông báo rằng không tìm thấy gì cho truy vấn đã chỉ định và đề xuất kết quả cho một truy vấn tương tự
  • Khả năng thiết lập số lượng People also ask mà công cụ cào dữ liệu cần thu thập bằng cách nhấp sâu vào từng câu hỏi
  • Khả năng thu thập các thẻ (tags)

Dựa trên công cụ cào dữ liệu Google, các công cụ cào dữ liệu sau đây hoạt động:

  • SE::Google::PositionSE::Google::Position - xác định vị trí của bất kỳ trang web nào trong kết quả tìm kiếm theo danh sách truy vấn
  • SE::Google::CompromisedSE::Google::Compromised - kiểm tra độ sạch của tên miền dưới góc nhìn của Google, có khả năng xác định các trang web bị tấn công hoặc lừa đảo
  • SE::Google::TrustCheckSE::Google::TrustCheck - kiểm tra độ tin cậy (Trust) của Google đối với trang web

Các phương án sử dụng

  • Thu thập cơ sở dữ liệu liên kết - cho XRumer, AllSubmitter, GSA Ranker, v.v.
  • Dump đầy đủ SERP, bao gồm các liên kết, anchor text, snippet, khối quảng cáo và thông tin khác cho phép thực hiện phân tích sâu cho các chuyên gia SEO và nhà phân tích marketing
  • Đánh giá độ cạnh tranh cho các từ khóa
  • Đánh giá độ cạnh tranh trong kết quả PPC (quảng cáo)
  • Tìm kiếm backlink và các lượt nhắc đến trang web
  • Kiểm tra việc lập chỉ mục (index) của các trang web
  • Tìm kiếm các trang web có lỗ hổng bảo mật
  • Bất kỳ phương án nào khác liên quan đến việc nhận kết quả tìm kiếm cho số lượng truy vấn không giới hạn

Truy vấn

Trong phần truy vấn, cần chỉ định các cụm từ tìm kiếm, giống như khi bạn nhập chúng trực tiếp vào khung tìm kiếm của Google, ví dụ:

mua xe
cửa sổ tại hà nội
site:https://lenta.ru
inurl:guestbook

Thay thế truy vấn

Bạn có thể sử dụng các macro tích hợp sẵn để nhân bản truy vấn, ví dụ chúng ta muốn có một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:

forum
diễn đàn
foro
论坛

Trong định dạng truy vấn, chúng ta sẽ chỉ định liệt kê các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng kết quả tìm kiếm tối đa và nhận được nhiều kết quả độc nhất mới:

$query {az:a:zzzz}

Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng nhưng không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, nhiệm vụ này sẽ được xử lý chỉ trong 16 giờ.

Sử dụng các toán tử

Bạn có thể sử dụng các toán tử tìm kiếm trong định dạng truy vấn, theo cách này nó sẽ tự động được thêm vào mỗi truy vấn từ danh sách của bạn:

inurl:$query

Các phương án xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép nó xuất kết quả dưới dạng tùy ý, cũng như dưới dạng có cấu trúc, ví dụ CSV hoặc JSON

Xuất danh sách liên kết

Định dạng kết quả:

$serp.format('$link\n')

Ví dụ kết quả:

https://www.weforum.org/open-forum/
https://www.weforum.org/about/world-economic-forum/
https://www.merriam-webster.com/dictionary/forum
https://en.wikipedia.org/wiki/Forum
https://dictionary.cambridge.org/dictionary/english/forum
https://www.collinsdictionary.com/dictionary/english/forum
https://www.linkedin.com/company/world-economic-forum
https://docs.moodle.org/en/Forum_activity
https://wordpress.org/support/forums/
https://www.facebook.com/worldeconomicforum/
...

Định dạng kết quả:

[% FOREACH item IN serp;    loop.count _ ' - ' _ item.link _ ' - ' _ item.anchor _ ' - ' _ item.snippet _ "\n"; END %]

Ví dụ kết quả:

1 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC - Diễn đàn — Wikipedia - <em>Diễńđàn</em> (lat. forum — arch. tiền sảnh của lăng mộ; sân trong máy ép nho để chế biến; quảng trường chợ, chợ thành phố;&nbsp;...
2 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC_(%D0%BC%D0%B5%D1%80%D0%BE%D0%BF%D1%80%D0%B8%D1%8F%D1%82%D0%B8%D0%B5) - Diễn đàn (sự kiện) — Wikipedia - <em>Diễn đàn</em> — sự kiện được tổ chức để xác định hoặc giải quyết các vấn đề<wbr>có tính chất toàn cầu ở mức độ đủ lớn. Khái niệm này được tìm thấy trong&nbsp;...
3 - https://support.google.com/googleplay/community?hl=ru - Chào mừng bạn đến với diễn đàn trợ giúp cộng đồng ... - Chào mừng bạn đến với <em>diễn đàn</em> trợ giúp cộng đồng Google Play. Các bài đăng nổi bật. Xem tất cả các bài đăng thú vị &middot; Cần trợ giúp với trò chơi?
4 - https://support.google.com/mail/community?hl=en - Gmail Community - Google Support - Welcome to the Gmail Help Community &middot; Featured posts &middot; Categories.
5 - https://www.weforum.org/ - The World Economic Forum - The World Economic Forum is an independent international organization committed to improving the state of the world by engaging business, political, academic&nbsp;...
6 - https://www.kunena.org/ - Home - Kunena - To Speak! Next Generation Forum ... - Kunena! - To Speak! Next Generation Forum Component for Joomla.
7 - https://forum.adguard.com/index.php - AdGuard Forum - <em>Diễn đàn</em> người thử nghiệm beta. Viết báo cáo lỗi của các phiên bản beta tại đây. Chủ đề: 355. Tin nhắn: 11.6K. Diễn đàn con: Nhận xét về các bản phát hành beta&nbsp;...
8 - https://www.sofiaforum.bg/ - Diễn đàn An ninh Sofia: Nền tảng thảo luận ... - <em>Diễn đàn</em> An ninh Sofia / Sofia Security Forum.
9 - https://forum.keenetic.net/ - Forums - Keenetic Community - Keenetic fan club. A place to meet software developers, get the latest updates, and share experience.
10 - https://forum.euroaion.com/ - Perfect quality European private server of Aion - EuroAion.com - Perfect quality European private server of Aion!
...

Tiện ích tích hợp $tools.CSVLine cho phép tạo các tài liệu bảng chính xác, sẵn sàng để nhập vào Excel hoặc Google Sheets.

Định dạng kết quả chung:

[%  FOREACH i IN p1.serp;    tools.CSVline(i.link, i.anchor, i.snippet); END  %]

Tên tệp:

$datefile.format().csv

Văn bản bắt đầu:

Liên kết,Anchor,Snippet

Ví dụ kết quả:

Liên kết,Anchor,Snippet
https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC,"Diễn đàn — Wikipedia",
https://en.wikipedia.org/wiki/Forum,"Forum - Wikipedia","<em>Forum</em> (plural forums or fora) may refer to: Contents. 1 Common uses; 2 Places. 2.1 Natural features; 2.2 Populated places. 3 Arts and entertainment; 4 Media."
https://www.weforum.org/,"The World Economic Forum","The World Economic <em>Forum</em> is an independent international organization committed to improving the state of the world by engaging business, political, academic&nbsp;..."
https://support.google.com/webmasters/community?hl=ru,"Chào mừng bạn đến với diễn đàn trợ giúp cộng đồng ...","Chào mừng bạn đến với <em>diễn đàn</em> trợ giúp cộng đồng Google Search Central. Các bài đăng nổi bật. Xem tất cả các bài đăng thú vị &middot; Câu trả lời cho&nbsp;..."
https://support.google.com/chrome/community?hl=ru,"Chào mừng bạn đến với diễn đàn trợ giúp cộng đồng ...","Chào mừng bạn đến với <em>diễn đàn</em> trợ giúp cộng đồng Google Chrome. Các bài đăng nổi bật&nbsp;..."
...
mẹo

Trong Định dạng kết quả chung, bộ tạo mẫu Template Toolkit được áp dụng để xuất mảng $serp trong vòng lặp FOREACH.

Trong tên tệp kết quả, bạn chỉ cần thay đổi phần mở rộng tệp thành csv.

Để tùy chọn "Prepend text" có sẵn trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options". Trong "Prepend text", chúng ta ghi tên các cột cách nhau bằng dấu phẩy và để dòng thứ hai trống.

Xuất các khối quảng cáo

Định dạng kết quả:

$ads.format('$link - $anchor - $snippet\n')

Ví dụ kết quả:

https://www.rentalcars.com/ - Rent a Car Worldwide - Best Prices Online Guaranteed - Secure Your <em>Car Hire</em> Today. The Best Price Guaranteed. Book at Over 53,000 Locations. Search, Compare and Save Using the World's Biggest Online <em>Car Rental</em> Service.
https://www.kayak.com/United-States-Car-Rentals.253.crc.html - United States from $9/day - Search for Rental Cars on Kayak - Find and Compare Great <em>Car</em> Deals in USA. Book with Confidence on KAYAK®!
https://www.discovercars.com/ - -70% Worldwide Car Rental - Rent Your Car in 5 Minutes‎ - <em>Car rental</em> prices are rising, but if you act fast, you can get a good deal. Don’t stress! We...
https://www.economybookings.com/ - Rent a Car for Summer Holidays - Car Rentals for the Best Price - Theft protection and Third Party liability part of a great deal. Free Mileage included.
...

Định dạng kết quả:

$related.format('$key\n')

Ví dụ kết quả:

test <b>speed</b>
<b>net speed</b> test
<b>google speed</b> test
<b>fast speed</b> test
<b>ping</b> test
<b>xfinity speed</b> test
<b>speed</b> test <b>mobile</b>
test <b>my</b>
...
mẹo

Để tự động loại bỏ các thẻ HTML trong kết quả, bạn cần sử dụng Trình tạo kết quả, chọn mảng $related và áp dụng Remove HTML tags.

Độ cạnh tranh của từ khóa

Định dạng kết quả:

$query - $totalcount\n

Ví dụ kết quả:

speed test mobile - 1080000000
test score - 4020000000
net speed test - 1210000000
fast speed test - 2150000000
speed test - 2500000000
test match - 4160000000
ping test - 425000000
google speed test - 1870000000

Xác định từ khóa có lỗi chính tả

Định dạng kết quả:

$query - $misspell\n

Ví dụ kết quả:

spead test - 1
test match - 0
speed test - 0
temst match - 1

Kiểm tra việc lập chỉ mục liên kết

Định dạng truy vấn:

site:$query

Định dạng kết quả:

$query.orig - $totalcount\n

Ví dụ kết quả:

https://a-parser.com/pages/buy - 2
https://a-parser.com/wiki/parsers - 4
https://a-parser.com/resources - 883
https://trjkjfkdf.bg.ky - none
https://a-parser.com/forum - 371
mẹo

Để kiểm tra việc lập chỉ mục của các liên kết, chúng ta chèn toán tử tương ứng vào Định dạng truy vấn: site:.

Định dạng kết quả được xuất dưới dạng "url gốc - số lượng trang trong chỉ mục".

Kết quả là chúng ta nhận được địa chỉ các trang và số lượng của chúng trong chỉ mục của công cụ tìm kiếm.

Nếu trang không tồn tại, kết quả sẽ là: none.

Lưu dưới định dạng SQL

Định dạng kết quả:

[%  FOREACH serp;   "INSERT INTO serp VALUES('" _ query _ "', '";   link _ "', '";  anchor _ "')\n"; END  %]

Ví dụ kết quả:

INSERT INTO serp VALUES('test', 'https://www.speedtest.net/', 'Speedtest by Ookla - The Global Broadband Speed Test')
INSERT INTO serp VALUES('test', 'https://fast.com/', 'Fast.com: Internet Speed Test')
INSERT INTO serp VALUES('test', 'https://www.business-standard.com/article/sports/ind-vs-aus-live-score-4th-day-5-india-vs-australia-live-cricket-score-online-brisbane-weather-121011900103_1.html', 'IND vs AUS 4th Test highlights: India creates history, wins ...')
INSERT INTO serp VALUES('test', 'https://www.test.com/', 'Find online tests, practice test, and test creation software | Test ...')
INSERT INTO serp VALUES('test', 'https://www.espncricinfo.com/series/india-in-australia-2020-21-1223867/australia-vs-india-4th-test-1223872/match-report-4', 'Recent Match Report - Australia vs India 4th Test 2020 ...')
INSERT INTO serp VALUES('test', 'https://www.icc-cricket.com/world-test-championship/standings', 'World Test Championship (2019-2021) Points Table - Live ...')
INSERT INTO serp VALUES('test', 'https://www.icc-cricket.com/rankings/mens/team-rankings/test', 'ICC Test Match Team Rankings International Cricket Council')
INSERT INTO serp VALUES('test', 'https://projectstream.google.com/speedtest', 'Speedtest - Google')
INSERT INTO serp VALUES('test', 'https://www.google.com/search?hl=en&q=Software+Testing&stick=H4sIAAAAAAAAAONgecQ4g5Fb4OWPe8JSfYyT1py8xtjOyMUVnJFf7ppXkllSKaTCxQZlSXHxSHHo5-obmJul5GkwSHFxwXlKwUbuuy5NO8fmKMgABGJm_g5SmlpCXOyexT75yYk5ggpvuB68mfLeXkuYiyMksSI_Lz-3UtCBgcHhx__39kqcnEBND7aoddhrMTTtW3GIjYWDUYCBZxGrQHB-Wkl5YlGqQkhqcUlmXjoAS5B1P7EAAAA&sa=X&ved=2ahUKEwiW-rnmlajuAhWpAGMBHR-JAv4Q6RMwHXoECDQQBQ', '')
...

Dump kết quả vào JSON

Định dạng kết quả chung:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.totalcount = p1.totalcount;
obj.links = [];

FOREACH item IN p1.serp;
obj.links.push(item.link);
END;

obj.json %]

Văn bản bắt đầu:

[

Văn bản kết thúc:

]

Ví dụ kết quả:

[{"totalcount":"6450000000","links":["https://www.speedtest.net/","https://fast.com/","https://projectstream.google.com/speedtest","https://www.test.com/","https://www.speakeasy.net/speedtest/","https://www.att.com/support/speedtest/","https://speedtest.xfinity.com/","https://developers.google.com/speed/pagespeed/insights/","https://www.espncricinfo.com/series/india-in-australia-2020-21-1223867/australia-vs-india-4th-test-1223872/match-report-4","https://nasional.tempo.co/read/1424570/listyo-sigit-temui-ahy-menjelang-fit-and-profer-test-calon-kapolri","https://www.google.com/search?hl=en&q=Test+Assessment&stick=H4sIAAAAAAAAAONgecRYyC3w8sc9YamMSWtOXmNM4uIKzsgvd80rySypFNLiYoOyFLj4pbj10_UNjQyzKsvyzDQYpHi5kAWUNIxkdl2ado5NTJABCMTKAhyUODmBLIVA-wX2WgxN-1YcYmPhYBRg4FnEyh-SWlyi4FhcnFpcnJuaVwIAwEAP9ogAAAA&sa=X&ved=2ahUKEwj17MzXmajuAhW8CWMBHRlzBP4Q6RMwDHoECBEQBQ"]}]
mẹo

Để tùy chọn "Prepend text" và "Append text" có sẵn trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".

Xử lý kết quả

A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đã đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu Google

Thêm khử trùng lặp và trong danh sách thả xuống chọn $serp.$i.link - Link.

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJx9VE1v2zAM/SsFkcMGBEFy2MW3NFiKDVnTNekpyEGNaUOLLGmSnDUw/N9H+ktO
N/Rmko+PfCTlCoLwZ//k0GPwkBwqsM03JLD7miQPxuQK7zZSn/3di5a/S4QpWOE8
OoYfRigKpJiJUgWYVhCuFonEXNA5mXJQpmRbZ96uDoOT6Ml3Eapk2GI+n0P9QZrI
8WRKHWLO4gO44n4tOk4bZcxHKWUvhuRyy8kBSJMlByfDcdoh9i3cU8c6h977oMyr
UJAEV2J9PPYsfm1cIXh4E7uYdZMcgjtxwb2hYCZVrOzXZD2KgqtMUhGQo7OsIfr0
eRbemEGkqQzSaKHaCjz7WLVbTALaEJY+ebprZwpyBWwI2HntuzvApLGjyp9tDiSZ
UB6n4KnVtaBG0vcRGdCJYNzWcj/kr8DopVIbvKCKsIb/vpQqpUNZZpT0rUv8P2T7
D0c9yBuXokX/cdTDwNJY99sfMSs1G5OT8vS1WWYhA9l+1VxPAnNynhHtMLNHnllh
HA5lOuauOr0Ni5qvKq5saaPrRsbNWm6dJ6MzmW+7S+2Rpd7TA9zqlSmsQtalS6Vo
LR6f43ksfbcGNmKD75NXTQmW3r9DCMYo/33XtmqdpPP7wg0WNMlx1Y7yJJR6ed6M
IxBPqjknz7QnutPc0AWRivo4/BGG/0g1/i8kVU1r+eWfWhBrYAj5aBieZs6P+S/t
6pW4

Thêm khử trùng lặp và trong danh sách thả xuống chọn $serp.$i.link - Link. Chọn loại khử trùng lặp: Domain.

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJx9VE2P2jAQ/SvI4tBKaAWHXnJj6bJqRZftwp4QB0MmyMXxuLZDF0X89844IQ7b
am+ZmffefDq1CNIf/bMDD8GLbFMLG79FJlYPWfaIeNAwWChz9INXo35XMNidB1+x
lMqIkbDSeXBM3PTwFMihkJUOYlSLcLZAcngC51TOQZWTbR2+nR0Ep8CT7yR1xbDJ
eDwWlw9o8gB7rExInMkHcM2VW3BM6zHGPUoV26IgNc4lZxtBPVlyMFlsRy1i3cDz
a++N91HjTmqRBVfBZbu9qvg5ulLyGId2ctfOtAuu5AnWSMFC6ZTZz8l6kiVnGeYy
AEfviij06fNdeGMFmecqKDRSNxl49ilrsyLiGyQsffJ05w5LcgWIAuw8X6vbiGG0
U5c/G47ICqk9jISnUueSCsnfR1QAJwO6peV6yF8LNFOtF3ACnWBR/75SOqdDmRZE
+tYS/w9Z/qNx6drrp6JF/3FUQ6cSrfvlj8TKcYEHXtkuLrNUgWw/i9eTiTE5jwC2
m9kTz6xEB12aVrnNTq/EguGrSiub2uS6aeNmLbfOPZpCHZbtpV6RlVnTU1yaGZZW
A/dlKq1pLR5e0nlMfbsGNlKB78mzmIJbv75DERC1/75qSrVO0fl94QJLmmQ/ayu5
l1q/viz6EZFOKp6TZ9k93ekB6YKoi8u2+yN0f5S6/1/I6gut5Zd/bkDcA0PIR8Pw
NHN+zH8BRVyZDA==

Trích xuất tên miền

Thêm Result Builders (Trình tạo kết quả) và trong danh sách thả xuống chọn nguồn: $p1.serp.$i.link - Link. Chọn loại: Extract Domain.

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJx9VE1v2zAM/SuFkMMGBIFz2MW3NGuGDVnTNe0p6EGzaUOLLGqSnCUw8t9HKort
dkNv5scj+cgndyJIv/cPDjwEL/JdJ2z8FrnY3uX5F8Raw83dMThZhJvP2EhlxFRY
6Tw4BuxGeRQooZKtDmLaiXCyQGXwAM6pkoOqJNs6PJ4cBKfAk+8gdctp8yzLxPkd
mKyhwNaEATN/J10rs/cWHMNGiOz88jIVxJBm9Ct0jWSmEzufJdp9cCsP8IQUrFQk
dsWQdS8bbjkpZQCOzqpY6MPHWThyBVmWKig0Ul868JqGrs9G/Y6MDVIuffIiVg4b
cgWIBdh5uk63E5NoCyrRRuyPC0bkldQepsLTqCtJg5RvIyqAkwHdxvI85O8EmoXW
aziAHtJi/dtW6ZJuuqgI9DUB/5+y+afGuac3bkU3+eNohr5KtG433wdUiWusiXn5
k3hr1ahAtl/GQ+ciI+cewPY7u+edNeigb5Mqp+4kZAuGBTCcbGEH1ysar84ycnbC
Y+sK6rfLpjtBQrdxOLMXrJ6kOLi8if5JSOfkifwpPWBSoTgTpkBTqXqTRHrt3Jon
en0bs8TGauA9mVZrOrOHx0FuC5/OysZA+C14GVvwKq9PkGZA7b9tL9StUzTSJybc
0GXGXVPJQmr9/LgeR8Qg0ShPz2UL0n2NpEhiweTSz6D/iXTjX0LenenMv/zDJYk5
cAr5aBmebsjv+C86oZM/
mẹo

Loại bỏ thẻ khỏi anchor text và snippet

Thêm Result Builders (Trình tạo kết quả) và trong danh sách thả xuống chọn nguồn: $p1.serp.$i.anchor - Anchor. Chọn loại: Remove HTML tags.

Thêm lại Result Builders (Trình tạo kết quả) và trong danh sách thả xuống chọn nguồn: $p1.serp.$i.snippet - Snippet. Chọn loại: Remove HTML tags.

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJyVVD1v2zAQ/SsC4aEFBEMeumhzjLpp4cSp7UxGBlY6qawpkiUpN4bg/947mpaU
NAjQjby79+7rkR3z3B3cgwUH3rF83zETzixn2895/kXrWkKygUYfIbnd3a0Sz2uX
VFY3yVwVP7V1CVdlslXCGKJImeHWgSWy/YgDHSVUvJWepR3zJwOYAkmtFSU5RYl3
Y/XzyYK3AojpyGVLYbMsy9j5HRivodCt8gNm9k64FOrgDFiCjRDZ+ekpZdg91uiW
2jacpjAxs2kcSe/c8iPsNDorERq7YvB2zxtKOSm5B/JOq0D04ePUPxMDL0vhhVZc
XjLQmIasj0r8Dh0rjbF4pEEscdZo8hAIyHi6Vrdnk3BnSNEG7PcLhuUVlw5S5rDU
JcdCytce4cFyr+3aUD1o75hWcylXcAQ5hAX+m1bIEnc6rxD0NQLfDln/w3Hu2xun
wp38sVhDzxJuN+u7AVXqla6x8/IH9i1FIzze3SIsOmcZGg8App/ZPc2s0Rb6NJE5
ZkeRG1AkgGFlczOYXrTxYi0jY8ecbm2B+fZZumcodENbDS+BkX6i5mx4Mbe+keS2
lp/QGKM9SSdCSKZvMbrLe/ovyivmjJhCq0rU66j8azut2uFzX6uFbowEGr5qpUTt
ONgMGp67qBW6DFN8DV6EFLSf67vGMrR037aXeRorsKpPaSx8nDVSFlzKx81q7GGD
7oPmHdEW+JhqjTLHLqi5+MP0v1Y3/mfy7oza+eUeLkHUA4WgDYfhUBj0OfwFH/O5
UQ==
mẹo

Trình tạo kết quả có thể được thêm bao nhiêu lần tùy ý bạn.

Xem thêm: Trình tạo kết quả

Thêm bộ lọc và trong danh sách thả xuống chọn: $serp.$i.link - Link. Chọn loại: Contain string. Tiếp theo, trong mục String (Chuỗi), hãy nhập dấu hiệu lọc.

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJx9VE1v2kAQ/StoxSGVEIJDL74RVKpWNKSBnBCHDR5bG9Y72901DbL83zuzNrZJ
qtw8H+/Nm491JYL0J//owEPwItlXwsZvkYjttyT5jphrGK2UDuCUyUcvl5EP8UuZ
kVbmJCbCSufBMXo/AFEghUyWOohJJcLFAnHiGZxTKQdVSrZ1+HZxQIzgyXeWuuS0
+Ww2E/UnMJnDEUsTesz8k3TW6S04hg0QswEkix1SkLpnycleUE+WHLHJw6TN2DXp
RzRBKjOQPD1iQSbaoNCQ7cF4UR8OV0a/QldInuvYzqftkLvgVp5hh40O6N00d3iQ
BfOPUxmAo9MsEt19mYY3ZpBpqrim1E0F3kNf9dmoP1GfQcqlT570ypHWRASIBOy8
XNXtxTja3HEZsb8bjEgyqT1MhCepK0lC0vcRRfORAd0mzoD8lUCz0HoNZ9B9WuS/
L5VO6WgWGYF+tMD/p2w+cNRde8NStPS/jjR0LNG63/zqUSmuMafO05e42EIFsv0y
XlIiZuQ8AdhuZg88swIddGVa5rY6PRsLhi+sX9nC9q6bNm7Wcuuka8pUvmmv9ppZ
mh29zY1ZYmE1cF+m1JrW4uGpP4+Fb9fARi/wPXgZS3Dr1zcpAqL2P7eNVOsUnd9X
FljQJIdVW8qj1Pr5aT2MiP6k4jl5pj3SneZIF0Rd1Ifu79D9YqrhPyKpalrLq39s
krgHTiEfDcPHlzSv/wHtZp3U
mẹo

Các cài đặt có thể

Các thông số khu vực

  • Google domain - tên miền Google được sử dụng, mặc định là google.com

  • Results language - tìm kiếm các trang bằng ngôn ngữ đã chọn, trong trình duyệt điều này tương ứng với tùy chọn Tìm kiếm nâng cao -> Cài đặt bổ sung -> Tìm kiếm bằng (tham số url lr). Mặc định không được thiết lập, có nghĩa là tự động xác định dựa trên IP

    Spoiler: Ảnh chụp màn hình
    Ngôn ngữ kết quả
  • Interface language - ngôn ngữ của các sản phẩm Google, trong trình duyệt điều này là Ngôn ngữ -> Ngôn ngữ giao diện (tham số url hl). Mặc định là tiếng Anh

    Spoiler: Ảnh chụp màn hình
    Ngôn ngữ giao diện
  • Search from country - chọn khu vực tìm kiếm, trong trình duyệt điều này là Ngôn ngữ -> Khu vực tìm kiếm (tham số url gl). Mặc định không được thiết lập, có nghĩa là tự động xác định dựa trên IP

    Spoiler: Ảnh chụp màn hình
    Tìm kiếm từ quốc gia
  • Narrow results by region - tìm kiếm các trang được tạo ở một quốc gia cụ thể, trong trình duyệt điều này là Tìm kiếm nâng cao -> Cài đặt bổ sung -> Quốc gia (tham số url cr). Mặc định không được thiết lập, có nghĩa là tắt tùy chọn này

    Spoiler: Ảnh chụp màn hình
    Thu hẹp kết quả theo khu vực
  • Location (city) - vị trí tìm kiếm chính xác, trong trình duyệt được xác định tự động dựa trên vị trí của người dùng. Mặc định không được thiết lập, có nghĩa là tự động xác định dựa trên IP của truy vấn

    Spoiler: Ảnh chụp màn hình
    Vị trí (thành phố)

Tất cả các thông số khu vực ở mức độ này hay mức độ khác đều ảnh hưởng đến kết quả tìm kiếm.

Tên tham sốGiá trị mặc địnhMô tả
DeviceDesktopChọn kết quả cho máy tính để bàn hoặc di động: Desktop / Mobile
Pages count5Số lượng trang để cào dữ liệu (từ 1 đến 100)
Parse pages links from first pageTừ trang kết quả đầu tiên, thu thập liên kết đến tất cả các trang phân trang có sẵn. Chỉ có tác dụng khi Device: Desktop; không có tác dụng đối với kết quả di động
Serp typeDefault (All)Xác định cào dữ liệu từ trang chính, theo tin tức hoặc blog (Books, News, Videos)
Hide omitted resultsXác định có ẩn các kết quả bị bỏ qua hay không (tham số filter=)
Serp timeAnytimeThời gian của kết quả (tìm kiếm phụ thuộc thời gian, tham số tbs=, các giá trị có thể: Past 1 hour, Past 24 hours, Past week, Past month, Past year)
Parse not foundXác định có cào dữ liệu hay không nếu Google thông báo rằng không tìm thấy gì cho truy vấn đã chỉ định và đề xuất kết quả cho một truy vấn khác
Disable autocorrectCho phép tắt tính năng tự động sửa lỗi của Google và cào dữ liệu chính xác theo truy vấn đã chỉ định
Exact matchTương ứng với tùy chọn "Exact match" trong công cụ tìm kiếm. Chú ý, tùy chọn này sẽ ghi đè giá trị của tham số Serp time (tương tự như cách các tùy chọn này hoạt động trong trình duyệt).
Safe searchBlurKhả năng bật "Safe search"
Google domainwww.google.comTên miền Google để cào dữ liệu, hỗ trợ tất cả các tên miền (www.google.ac, www.google.com.af, www.google.co.ck, v.v.)
Narrow results by regionAny region Khả năng thu hẹp tìm kiếm đến một quốc gia cụ thể
Results languageAuto (Based on IP)Chọn ngôn ngữ kết quả (tham số lr=)
Search from countryAuto (Based on IP)Chọn quốc gia nơi thực hiện tìm kiếm (tìm kiếm phụ thuộc địa lý, tham số gl=)
Interface languageEnglishKhả năng chọn ngôn ngữ giao diện Google, để có kết quả giống nhất giữa công cụ cào dữ liệu và trình duyệt
Location (city)Tìm kiếm theo thành phố, khu vực. Có thể chỉ định thành phố dưới dạng novosibirsk, russia; danh sách đầy đủ các vị trí có thể tìm thấy trong Geotargets (bản sao - cần sử dụng giá trị từ cột Canonical Name). Ngoài ra cần thiết lập tên miền Google chính xác
Util::ReCaptcha2 presetdefaultXác định có sử dụng Util::ReCaptcha2Util::ReCaptcha2 để vượt qua recaptcha hay không
Util::AntiGate presetdefaultXác định có sử dụng Util::AntiGateUtil::AntiGate để vượt qua captcha hình ảnh hay không
ReCaptcha2 retries3Số lần thử gửi câu trả lời ReCaptcha theo số lần đã chỉ định mà không thay đổi proxy
ReCaptcha2 pass proxyCho phép truyền proxy (được sử dụng trong truy vấn tới Google) và cookie (nhận được trong phản hồi từ Google) tới dịch vụ giải ReCaptcha
Use sessionsLưu các phiên làm việc tốt, cho phép cào dữ liệu nhanh hơn nữa, nhận được ít lỗi hơn.
Don't take sessionKhả năng không sử dụng các phiên làm việc tốt đã lưu
Additional headersCho phép chỉ định bất kỳ tiêu đề (headers) riêng nào
PAA questions count0Số lượng câu hỏi-trả lời tối đa (People also ask) cho mỗi truy vấn mà công cụ cào dữ liệu cần thu thập
Empty totalcount is errorKhi bật tham số này, truy vấn sẽ được coi là không thành công nếu thiếu giá trị cho $totalcount, và theo đó sẽ thực hiện các lần thử lại
Count of retries when result is empty10Số lần thử lại truy vấn nếu trang kết quả hoàn toàn trống
Redirect browser max pages10Số lượng trang trình duyệt được sử dụng để vượt qua bảo vệ dưới dạng kiểm tra JavaScript đã bật
Single redirect browser for taskNếu trong tác vụ chỉ định nhiều công cụ cào dữ liệu Google — chỉ sử dụng một trình duyệt cho tất cả các tác vụ phụ; số lượng trang tối đa và các cài đặt khác được lấy từ công cụ cào dữ liệu Google đầu tiên trong tác vụ