Chuyển đến nội dung chính

FreeAI::GoogleAI - Công cụ cào dữ liệu Google AI mode

GoogleAI

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu Google AI mode là một công cụ mạnh mẽ để thu thập thông tin có cấu trúc từ một trong những hệ thống AI hàng đầu, vì AI mode hoạt động dựa trên Gemini của Google. Nhờ tích hợp với Google AI mode, bạn không chỉ nhận được danh sách các liên kết mà còn là các câu trả lời cập nhật, súc tích và phù hợp, dựa trên một lượng lớn nguồn dữ liệu bao gồm các bài báo khoa học, blog, diễn đàn và cổng thông tin tin tức.

Công cụ cào dữ liệu Google AI mode hỗ trợ các truy vấn bằng ngôn ngữ tự nhiên, bao gồm các yêu cầu làm rõ, câu hỏi theo ngữ cảnh và các cấu trúc lồng nhau. Tốc độ xử lý đạt tới 800–1500 truy vấn mỗi phút nhờ chế độ hoạt động đa luồng. Tùy thuộc vào cấu hình và các preset được sử dụng, bạn có thể nhận được hàng chục nghìn đoạn văn bản độc nhất và hàng trăm liên kết trong vòng vài phút.

Kết quả đầu ra có thể được lưu ở bất kỳ định dạng nào mong muốn nhờ bộ tạo mẫu mạnh mẽ Template Toolkit, cho phép cấu trúc dữ liệu thành JSON, CSV, SQL và các định dạng khác, cũng như áp dụng lọc, sắp xếp và tổng hợp dữ liệu ngay lập tức.

Công cụ cào dữ liệu FreeAI::GoogleAI hoàn hảo cho các tác vụ tình báo cạnh tranh, thu thập sự thật và trích dẫn, tạo cơ sở tri thức, theo dõi tin tức và phân tích chủ đề, nhờ vào chất lượng cao và tính ngữ cảnh của kết quả trả về.

thông tin

Hiện tại Google chỉ cung cấp quyền truy cập vào AI mode tại lãnh thổ Hoa Kỳ, vì vậy để công cụ cào dữ liệu hoạt động, bạn cần sử dụng Proxy US. Cũng vì lý do đó, kết quả chỉ có bằng tiếng Anh.

Dữ liệu thu thập được

  • Văn bản câu trả lời (định dạng HTML)
  • Liên kết, anchor text và snippet của các nguồn dữ liệu

Tính năng

  • Tương tự như công cụ cào dữ liệu SE::Google, hỗ trợ vượt qua kiểm tra JS và làm việc với reCAPTCHA
  • Hỗ trợ phiên (session) để hoạt động ổn định và nhanh chóng hơn

Ứng dụng

  • Thu thập các câu trả lời có cấu trúc theo các truy vấn chủ đề để tạo cơ sở tri thức, kế hoạch nội dung, hệ thống tham chiếu và tạo FAQ
  • Trích xuất liên kết đến nguồn với anchor text và snippet - lý tưởng để xây dựng danh sách các tài nguyên uy tín, trích dẫn và thu thập backlink
  • Theo dõi các đề cập đến thương hiệu, sản phẩm hoặc cá nhân - gắn liền với ngữ cảnh và nguồn
  • Tìm kiếm và phân tích ý kiến chuyên gia, xu hướng và thông tin chuyên sâu từ các nguồn uy tín
  • Kiểm tra nhanh tính cập nhật và đầy đủ của thông tin về các chủ đề chính
  • Tự động hóa phân tích đối thủ cạnh tranh: những tài nguyên nào được trích dẫn, những chủ đề nào được đề cập và tần suất như thế nào
  • Hỗ trợ các dự án nghiên cứu và phân tích yêu cầu tổng hợp thông tin chính xác từ nhiều nguồn khác nhau
  • Bất kỳ tác vụ nào khác yêu cầu nhanh chóng nhận được các câu trả lời ngắn gọn, chính xác với sự xác nhận từ các nguồn thực tế và ngữ cảnh logic

Truy vấn

Trong phần truy vấn, bạn cần chỉ định các truy vấn tìm kiếm giống như khi bạn nhập trực tiếp vào khung tìm kiếm của Google AI mode, ví dụ:

How to learn fast?
How to improve memory and concentration?
What is a parser?

Kết quả

thông tin

Tại đây và dưới đây, các ví dụ kết quả được rút gọn để dễ quan sát hơn

Theo mặc định, câu trả lời cho truy vấn sẽ được hiển thị, ví dụ:

A parser is a program that <b>analyzes input data, typically text or code, and converts it into a structured format that a computer can understand and process</b>.<br />
<b>Here&#39;s a breakdown of what a parser does:</b>
<ul>
<li><b>Takes Input:</b> Parsers receive input, which can be source code, data in a specific format (like XML or JSON), interactive commands, etc.</li>
<li><b>Breaks Down Input:</b> The parser breaks the input into its constituent parts, such as keywords, operators, identifiers, and symbols, which are called tokens.</li>
...
To improve memory and concentration, you can implement a combination of lifestyle changes and cognitive exercises.<br />
<b>Lifestyle Changes:</b>
<ul>
<li><b>Prioritize Sleep:</b> Adequate and quality sleep is crucial for memory consolidation and cognitive function. Aim for 7-9 hours of sleep each night and maintain a consistent sleep schedule.</li>
...
To learn fast and retain information effectively, focus on strategies that promote active engagement, optimize brain function, and utilize science-backed learning techniques.<br />
<b>1. Enhance Cognitive Function and Focus:</b>
<ul>
<li><b>Prioritize Sleep:</b> Quality sleep is crucial for memory consolidation and improved concentration. Aim for 7-9 hours of sleep per night for optimal results.</li>
...

Các ví dụ về kết quả đầu ra

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép nó xuất kết quả ở bất kỳ dạng nào, cũng như ở dạng có cấu trúc như CSV hoặc JSON.

Xuất danh sách liên kết

Định dạng kết quả:

$links.format('$link\n')

Ví dụ kết quả:

https://www.techtarget.com/searchapparchitecture/definition/parser
https://www.linkedin.com/advice/3/what-role-parser-programming-language-theory-bxxbe#:~:text=A%20parser%20in%20a%20compiler,the%20compilation%20process%20will%20stop.
https://www.huntress.com/cybersecurity-101/topics/what-is-a-parser
https://botpenguin.com/glossary/syntax-analysis
https://www.dremio.com/wiki/parsing/#:~:text=Parsing%2C%20also%20known%20as%20syntax,%2C%20processed%2C%20or%20analyzed%20effectively.
...

Xuất ra CSV các liên kết, anchor text và snippet với vị trí của chúng

Định dạng kết quả:

[% FOREACH item IN links; tools.CSVline(loop.count, item.link, item.anchor, item.snippet); END %]

Ví dụ kết quả:

...
8,https://www.howtolearn.com/2021/01/9-science-backed-ways-to-learn-anything-faster/,"9 Science Backed Ways to Learn Anything Faster - HowToLearn.com","Jan 4, 2021 — Table of Contents * Break Your Learning into Manageable Portions. * Review What You&#39;re Learning Frequently. * Use Mindmaps to Summarize Information. * Take Note..."
9,https://www.linkedin.com/pulse/how-slow-learners-easily-speed-up-learning-sathya-molagoda,"How Slow Learners Easily Speed Up Learning - LinkedIn","Dec 24, 2022 — How Slow Learners Easily Speed Up Learning * Introduction. If you are a slow learner, don&#39;t worry. You can easily speed up your learning by using some tips and ..."
10,https://www.linkedin.com/pulse/5-science-backed-learning-techniques-save-time-supercharge-k-c-barr-ljqee,"5 Science-Backed Learning Techniques That Save Time and ...","Jan 16, 2025 — Offsetting forgetting is like patching those holes to retain as much water as possible. * 5 Actionable Steps: Review new material within 24 hours of learning it..."
1,https://www.huntress.com/cybersecurity-101/topics/what-is-a-parser,"What Is a Parser? A Beginner-Friendly Guide to ... - Huntress","May 27, 2025 — What&#39;s a Parser (And Why Should You Care)? ... Ever wondered what happens behind the scenes when computers process text, code, or data? That&#39;s where parsers com..."
2,https://www.huntress.com/cybersecurity-101/topics/what-is-a-parser,"What Is a Parser? A Beginner-Friendly Guide to ... - Huntress","May 27, 2025 — What&#39;s a Parser (And Why Should You Care)? ... Ever wondered what happens behind the scenes when computers process text, code, or data? That&#39;s where parsers com..."
3,"https://www.techtarget.com/searchapparchitecture/definition/parser#:~:text=In%20computer%20technology%2C%20a%20parser,necessary%20input%20has%20been%20provided.","What is a Parser? Definition, Types and Examples - TechTarget","Jul 7, 2022 — What is a parser? In computer technology, a parser is a program that&#39;s usually part of a compiler. It receives input in the form of sequential source program in..."
mẹo

Trong Định dạng kết quả chung, bộ tạo mẫu Template Toolkit được sử dụng để xuất mảng $links trong vòng lặp FOREACH.

Trong tên tệp kết quả, bạn chỉ cần thay đổi phần mở rộng của tệp thành csv.

Các cài đặt có thể

Tên tham sốGiá trị mặc địnhMô tả
Results languageAuto (Based on IP)Chọn ngôn ngữ kết quả (tham số lr=)
Search from countryAuto (Based on IP)Chọn quốc gia thực hiện tìm kiếm (tìm kiếm theo địa lý, tham số gl=)
Location (city)Tìm kiếm theo thành phố, khu vực. Có thể chỉ định các thành phố dưới dạng novosibirsk, russia; danh sách đầy đủ các vị trí có thể tìm thấy trong Geotargets (bản sao - cần sử dụng giá trị từ cột Canonical Name). Cũng cần thiết lập đúng tên miền của Google
Util::ReCaptcha2 presetdefaultXác định xem có sử dụng Util::ReCaptcha2Util::ReCaptcha2 để vượt qua reCAPTCHA hay không
Util::AntiGate presetdefaultXác định xem có sử dụng Util::AntiGateUtil::AntiGate để vượt qua CAPTCHA hình ảnh hay không
ReCaptcha2 retries3Số lần thử gửi câu trả lời reCAPTCHA theo số lần đã chỉ định mà không thay đổi proxy
ReCaptcha2 pass proxyCho phép truyền proxy (được sử dụng trong yêu cầu tới Google) và cookie (nhận được trong phản hồi từ Google) tới dịch vụ giải mã ReCaptcha
Use sessionsLưu các phiên tốt, giúp cào dữ liệu nhanh hơn và nhận được ít lỗi hơn.
Don't take sessionTùy chọn không sử dụng các phiên tốt đã lưu
Additional headersCho phép chỉ định bất kỳ tiêu đề (header) tùy chỉnh nào
Redirect browser max pages10Số lượng trang trình duyệt được sử dụng để vượt qua bảo vệ dưới dạng kiểm tra JavaScript đã bật