Chuyển đến nội dung chính

SE::Yandex - Công cụ cào dữ liệu kết quả tìm kiếm Yandex

Yandex

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu kết quả tìm kiếm Yandex xứng đáng nằm trong TOP 5 các công cụ cào dữ liệu được ưa chuộng nhất. Một trong những lợi thế cạnh tranh chính của công cụ cào dữ liệu của chúng tôi là hiệu suất khổng lồ. Nhờ khả năng hoạt động đa luồng của A-Parser, tốc độ xử lý truy vấn có thể đạt tới 3000-7000 truy vấn mỗi phút, cho phép nhận được trung bình lên tới 5.000.000 liên kết mỗi phút, trong khi mức tiêu thụ tài nguyên là tối thiểu, bất kỳ máy tính văn phòng hoặc gia đình nào, cũng như bất kỳ VDS cấp thấp nào cũng có thể hoạt động tốt. Công cụ cào dữ liệu của chúng tôi hỗ trợ tất cả các toán tử tìm kiếm của Yandex, giúp mở rộng đáng kể khả năng cào dữ liệu. Sự ổn định và không gián đoạn của việc cào dữ liệu kết quả tìm kiếm được đảm bảo nhờ việc nhận dạng captcha thông qua AntiCaptcha hoặc bất kỳ API nào khác hỗ trợ chúng (Anti-Captcha, RuCaptcha, CapMonster.cloud, 2captcha và các dịch vụ khác).

Sự linh hoạt trong cài đặt cho phép bạn chỉ định loại kết quả (di động/máy tính), khu vực, ngôn ngữ, sắp xếp kết quả theo ngày và nhiều hơn nữa. Chức năng của A-Parser cho phép lưu các cài đặt cào dữ liệu để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng nhân bản truy vấn tự động, thay thế các truy vấn phụ từ tệp, thử các tổ hợp chữ-số và danh sách để nhận được số lượng kết quả tối đa có thể.

Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Các trường hợp ứng dụng công cụ cào dữ liệu

Dữ liệu thu thập được

Dữ liệu thu thập được
  • Số lượng kết quả theo truy vấn
  • Liên kết, anchor text và đoạn trích (snippet) từ kết quả tìm kiếm
    • Thông tin về các cờ (flags) của mỗi kết quả cũng được thu thập, hiện tại hỗ trợ các cờ: Date, Image Preview, Video, Rich snippet, Featured snippet
  • Thời gian lưu bộ nhớ đệm đầu tiên và cuối cùng (chỉ dành cho kết quả trên máy tính)
  • Danh sách các từ khóa liên quan (Related keywords)
  • Xác định xem Yandex có coi truy vấn là lỗi đánh máy hay không
  • Cào dữ liệu liên kết đến bản lưu bộ nhớ đệm của trang (chỉ dành cho kết quả trên máy tính)
  • Danh sách tên các biểu tượng của trang web, cũng như loại của chúng nếu có (bao gồm cả Turbo)
  • Các khối quảng cáo trên cùng, giữa và dưới cùng từ tất cả các trang
    • Liên kết, liên kết hiển thị, anchor text, snippet và tên miền
    • Các liên kết và anchor text bổ sung
    • Ga tàu điện ngầm
  • Các từ bị thiếu (các từ có thể hiển thị dưới mỗi kết quả tìm kiếm với ghi chú "Không tìm thấy")
  • Danh sách các câu trả lời nhanh (Quick answers): câu hỏi, câu trả lời, liên kết đến nguồn (được kích hoạt bằng tùy chọn riêng Parse Quick answers)
  • Câu trả lời AI (Tìm kiếm với Alice), loại của nó và danh sách các nguồn

Tính năng

  • Lựa chọn loại kết quả: di động/máy tính
  • Hỗ trợ tất cả các toán tử tìm kiếm của Yandex (site:, lang:, v.v.)
  • Cào dữ liệu số lượng kết quả tối đa mà Yandex cung cấp - 25 trang với 50 phần tử mỗi trang
  • Khả năng tìm kiếm từ khóa liên quan
  • Hỗ trợ chọn khu vực tìm kiếm, tên miền
  • Khả năng sắp xếp kết quả theo ngày
  • Cào dữ liệu thời gian lập chỉ mục trang, với khả năng lọc kết quả theo tham số này
  • Tùy chọn giả lập trình duyệt (cho phép đạt tốc độ cào dữ liệu cao và tiêu tốn ít captcha)
  • Khả năng vượt captcha bằng dịch vụ AntiCaptcha hoặc bất kỳ API nào khác hỗ trợ chúng (khuyến nghị bật tham số is_russian trong cài đặt antigate)
  • Khả năng chỉ định số lượng câu trả lời nhanh (Quick answers) mà công cụ cào dữ liệu cần thu thập bằng cách nhấp sâu vào từng câu hỏi

img

Dựa trên công cụ cào dữ liệu Yandex, các công cụ cào dữ liệu sau đây hoạt động:

Các phương án sử dụng

  • Thu thập cơ sở dữ liệu liên kết - cho A-Poster, XRumer, AllSubmitter, v.v.
  • Đánh giá mức độ cạnh tranh của từ khóa
  • Tìm kiếm backlink (lượt nhắc đến) của các trang web
  • Kiểm tra việc lập chỉ mục của các trang web
  • Tìm kiếm các trang web có lỗ hổng bảo mật
  • Bất kỳ phương án nào khác liên quan đến việc cào dữ liệu Yandex dưới hình thức này hay hình thức khác

Truy vấn

Trong phần truy vấn, cần chỉ định các cụm từ tìm kiếm, giống như khi bạn nhập trực tiếp vào khung tìm kiếm của Yandex, ví dụ:

cửa sổ Hà Nội
lang:en windows Moscow
url:a-parser.com
site:a-parser.com
"a-parser.com"

Thay thế truy vấn

Bạn có thể sử dụng các macro tích hợp sẵn để nhân bản truy vấn, ví dụ chúng ta muốn có một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:

forum
diễn đàn
foro
论坛

Trong định dạng truy vấn, chúng ta chỉ định việc thử các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng kết quả tìm kiếm tối đa và nhận được nhiều kết quả mới duy nhất:

$query {az:a:zzzz}

Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng, nhưng đó hoàn toàn không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, nhiệm vụ này sẽ được xử lý chỉ trong 16 giờ.

Sử dụng các toán tử

Bạn có thể sử dụng các toán tử tìm kiếm trong định dạng truy vấn, bằng cách này nó sẽ được tự động thêm vào mỗi truy vấn từ danh sách của bạn:

site:$query

Tài khoản

Để công cụ cào dữ liệu SE::YandexSE::Yandex hoạt động, có thể cần tài khoản Yandex. Tài khoản có thể được đăng ký bằng công cụ cào dữ liệu SE::Yandex::RegisterSE::Yandex::Register hoặc chỉ cần thêm các tài khoản hiện có vào tệp files/SE-Yandex/accounts.txt theo định dạng được hỗ trợ.

Hoặc có thể bật tính năng đăng ký tài khoản "ngay lập tức".

Để làm việc bằng cách sử dụng xác thực qua phiên (session), cần phải có dòng dữ liệu theo định dạng sau: [email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}

Các ví dụ về định dạng kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ vào bộ tạo mẫu tích hợp sẵn Template Toolkit, cho phép nó xuất kết quả dưới dạng tùy ý, cũng như dưới dạng có cấu trúc như CSV hoặc JSON

Xuất danh sách liên kết

Định dạng kết quả:

$serp.format('$link\n')

Ví dụ kết quả:

https://TestoMetrika.com/tests/
https://onlinetestpad.com/ru/tests
https://www.speedtest.net/
https://ustaliy.ru/testi/
https://yandex.ru/internet/
https://konstruktortestov.ru/popular
https://TestEdu.ru/test/
https://kto-chto-gde.ru/category/tests/
https://weekend.rambler.ru/tests/
https://GadalkinDom.ru/test
...

Định dạng kết quả:

[% FOREACH item IN serp;    loop.count _ ' - ' _ item.link _ ' - ' _ item.anchor _ ' - ' _ item.snippet _ "\n"; END %]

Ví dụ kết quả:

1 - http://forum.r-rp.ru/ - <b>forum</b>.r-rp.ru - 
2 - https://forum.arizona-rp.com/ - <div class=a11y-hidden>Kết quả web với các liên kết bổ sung</div><b>Diễn đàn</b> – Arizona Role Play - Menu. Trang chủ. <b>Diễn đàn</b>. Tin nhắn mới. Có gì mới? Tin nhắn mới. Người dùng. Khách hiện tại. <b>Diễn đàn</b>. Đăng nhập. ... Thống kê <b>diễn đàn</b>. Chủ đề. 1,247,176. Tin nhắn. 5,225,340. Người dùng. 623,675.
3 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC - <b>Diễn đàn</b> — Wikipedia - <b>Diễńđàn</b> (tiếng Latinh. <b>forum</b> — khảo cổ học. tiền sảnh lăng mộ; khu vực trong máy ép nho để xử lý nho; quảng trường chợ, chợ thành phố; nơi giao thương, quảng trường trung tâm):
4 - https://zen.yandex.ru/media/propromotion/chto-takoe-forum-i-vse-chto-s-nim-sviazano-5d65164c1d656a00ad52ba30 - Diễn đàn là gì <b>diễn đàn</b> và mọi thứ liên quan đến nó | Sáng tạo... - Hôm nay chúng ta sẽ nói về việc <b>diễn đàn</b> là gì và mọi thứ liên quan đến nó bằng những từ ngữ đơn giản và dễ hiểu. Mỗi chúng ta đều cố gắng tìm một người như vậy để có thể xây dựng giao tiếp dựa trên những sở thích chung, chia sẻ kinh nghiệm, đưa ra lời khuyên. Trong thế giới hiện đại, tất cả những điều này đã có thể thực hiện được mà không cần rời khỏi nhà. Một trong những hình thức tiếp xúc ảo như vậy chính là web-<b>diễn đàn</b>.
5 - https://forum.vimeworld.ru/ - VimeWorld - <b>Diễn đàn</b> - <b>Diễn đàn</b> dự án máy chủ trò chơi Minecraft lý tưởng - VimeWorld...
...

Tiện ích tích hợp sẵn $tools.CSVLine cho phép tạo các tài liệu bảng chính xác, sẵn sàng để nhập vào Excel hoặc Google Sheets.

Định dạng kết quả chung:

[%  FOREACH i IN p1.serp;    tools.CSVline(i.link, i.anchor, i.snippet); END  %]

Tên tệp:

$datefile.format().csv

Văn bản bắt đầu:

Liên kết,Anchor,Snippet

mẹo

Trong Định dạng kết quả chung được áp dụng bộ tạo mẫu Template Toolkit để xuất mảng $serp trong vòng lặp FOREACH.

Trong tên tệp kết quả, bạn chỉ cần thay đổi phần mở rộng của tệp thành csv.

Để tùy chọn "Văn bản bắt đầu" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "Thêm tùy chọn". Trong "Văn bản bắt đầu", chúng ta ghi tên các cột cách nhau bằng dấu phẩy và để dòng thứ hai trống.

Xuất các khối quảng cáo

Định dạng kết quả:

$ads.format('$link - $anchor - $snippet\n')

Ví dụ kết quả:

http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Mua</b> <b>vé máy bay</b> đến / aviasales.ru - Chúng tôi cung cấp: <b>Mua</b> <b>vé máy bay</b> đến tại đây. Siêu ưu đãi! Nhanh chân lên!
http://yabs.yandex.ru/count/WgGejI_zO5e2rHG092HY-_ryhkYFF0K0MWCnZYWCO000000u109mhDZpa8WGW07ZZm680U2f-wrQa07AywxRoe20W0AO0ShphjjAk06oWAxe8C01NDW1e8MobW7W0TJCXm_e0O01c0BImFq2e0BuQjW20l02g_w3YWNu0l3gyU2XnhZLvG600vF6eiSFY0FStR-O39W3cyKxYga3-0JJpWI81TFE1905Z-zGe0MPj06e1PMM0R05bPO1k0NInnJ01TF1ZG781PNz8uheD8-kAs27sGO0000GaG000Aa7xtUKqlAB7m6m1u20c0ou1u05yGTxKlEQZtj_VeI2l3M02W712l_aZtPQIU8_oGeJ5NRdMhxJFweB4E0yOqplTm00p5BUXP6v1G3P2-WBqyu4y0i6Y0ookzw-0QaCu_jL-Yu3zB_e3AC2u0s3W810YGwgO5HI9w3dYj7J-UZrYh27s0u2-0x7dPAe2Q4FFGhNet0zzZ_P3_0_W13GmC4Rm92GPpgqxC9xJZC_iHAuM7p6uhZj0k0JqiSKe1JInnIe58_lKB0KYw381hWKmAo0jQI04TWK-FpP_WNe58m2q1Nu_Dd-1TWLmOhsxAEFlFnZyA0Mq92TW0R95j0MihlUlW615vWNfwZz3wWN2S0Nj0BO5y24FPaOe1WAi1Z9fB201j0O8VWOgVYRg8x-yPebW1cmzBZYqBsHkI2G6G6W6S83i1cu6V___m7I6H9vOM9pNtDbSdPbSYzoD3atBJBe6O320_0PWC83WHh__oD2TTsApne0jsLWrgrT_2INXiZt8r8kcvWxe0SCE37tPBmjEYG0203ecjreFlD0AY-khXXjgcFZa190IXd9BOrkl3guMzzraExES_xHXH4WwWDq1xIoUlHJ6Y74~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Mua</b> <b>vé máy bay</b> trực tuyến trên Tutu.ru! Trang web chính thức! - Vé máy bay giá rẻ! Các chuyến bay hời trên toàn thế giới! <b>Mua</b> vé trực tuyến!
http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Mua</b> <b>vé máy bay</b> đến / aviasales.ru - Chúng tôi cung cấp: <b>Mua</b> <b>vé máy bay</b> đến tại đây. Siêu ưu đãi! Nhanh chân lên!
...

Định dạng kết quả:

$related.format('$key\n')

Ví dụ kết quả:

<b>test</b> tanki online
tanki online
tất cả <b>bài kiểm tra</b> chấm ru
i exam ru testing
<b>kiểm tra</b> tốc độ internet
<b>tests</b>24.ru
speedtest
trực tuyến <b>kiểm tra</b> hiệu năng máy tính
online testing
my <b>test</b> student làm thế nào để biết câu trả lời
...
mẹo

Để tự động loại bỏ các thẻ HTML trong kết quả, bạn cần sử dụng Trình tạo kết quả, chọn mảng $related và áp dụng Remove HTML tags.

Mức độ cạnh tranh của từ khóa

Định dạng kết quả:

$query - $totalcount\n

Ví dụ kết quả:

vse testi tochka ru - 25000000
online testing - 13000000
tanki online - 7000000
i exam ru testing - 27000000
tests24.ru - 238000000
online pc performance test - 16000000
speedtest - 2000000
internet speed test - 16000000
test tanki online - 19000000
my test student how to find answers - 16000000

Xác định từ khóa có lỗi chính tả

Định dạng kết quả:

$query - $misspell\n

Ví dụ kết quả:

online testing - 0
internet speed test - 0
onlayn testing - 1
test skorosti intrneta - 1

Kiểm tra việc lập chỉ mục liên kết

Định dạng truy vấn:

site:$query

Định dạng kết quả:

$query.orig - $totalcount\n

Ví dụ kết quả:

https://a-parser.com/pages/buy - 2
https://a-parser.com/wiki/parsers - 16
https://trjkjfkdf.bg.ky - 0
https://a-parser.com/resources - 1000
https://a-parser.com/forum - 499
mẹo

Để kiểm tra việc lập chỉ mục liên kết, chúng ta chèn toán tử tương ứng vào Định dạng truy vấn: site:.

Định dạng kết quả được hiển thị dưới dạng "url gốc - số lượng trang trong chỉ mục".

Kết quả nhận được là địa chỉ các trang và số lượng của chúng trong chỉ mục của công cụ tìm kiếm.

Nếu trang không tồn tại, kết quả sẽ là: 0.

Lưu dưới định dạng SQL

Định dạng kết quả:

[%  FOREACH serp;   "INSERT INTO serp VALUES('" _ query _ "', '";   link _ "', '";  anchor _ "')\n"; END  %]

Ví dụ kết quả:

INSERT INTO serp VALUES('kiểm tra', 'https://konstruktortestov.ru/popular', 'Các bài kiểm tra trực tuyến phổ biến <b>bài kiểm tra</b>')
INSERT INTO serp VALUES('kiểm tra', 'https://TestoMetrika.com/tests/', 'Các bài kiểm tra trực tuyến <b>bài kiểm tra</b> c với kết quả chính xác từ tâm lý học...')
INSERT INTO serp VALUES('kiểm tra', 'https://ustaliy.ru/testi/', '<b>Các bài kiểm tra</b> trực tuyến: tốt nhất, thú vị và phổ biến')
INSERT INTO serp VALUES('kiểm tra', 'https://www.SunHome.ru/tests/Interesting_tests', 'Các bài kiểm tra thú vị <b>bài kiểm tra</b>. Làm các bài kiểm tra tâm lý thú vị...')
INSERT INTO serp VALUES('kiểm tra', 'https://onlinetestpad.com/ru/tests', '<b>Các bài kiểm tra</b> trực tuyến | Online Test Pad')
...

Dump kết quả sang JSON

Định dạng kết quả chung:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.totalcount = p1.totalcount;
obj.links = [];

FOREACH item IN p1.serp;
obj.links.push(item.link);
END;

obj.json %]

Văn bản bắt đầu:

[

Văn bản kết thúc:

]

Ví dụ kết quả:

[{"totalcount":113000000,"links":["https://TestoMetrika.com/tests/","https://konstruktortestov.ru/popular","https://ustaliy.ru/testi/","https://www.SunHome.ru/tests/Interesting_tests","https://GadalkinDom.ru/test","https://zen.yandex.ru/tes","https://onlinetestpad.com/ru/tests","https://kto-chto-gde.ru/category/tests/","https://psytests.org/top.html","https://MixTests.com/new/","https://TestEdu.ru/test/","https://testserver.pro/index","https://onedio.ru/tests","https://BankTestov.ru/","https://weekend.rambler.ru/tests/","https://edieta.org/testi","https://trikky.ru/?%21","https://BBF.ru/tests/","https://dropi.ru/c/tests/raznie","https://cadelta.ru/tests","https://www.Elle.ru/tests/","https://www.adme.ru/svoboda-psihologiya/polnyj-spisok-psihologicheskih-testov-dlya-poznaniya-sebya-kotorye-mozhno-projti-onlajn-2071715/","https://www.ellegirl.ru/tests/","https://test.tankionline.com/","https://vraki.net/onlajn-testy/","https://Lifehacker.ru/psixologicheskie-testy/","https://iq2u.ru/tests","https://www.b17.ru/tests/","https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%81%D1%82","https://gurutest.ru/test/","https://www.psychologies.ru/tests/","https://peopletalk.ru/category/tests/","https://obrazovaka.ru/testy","https://likeyou.io/category/test/","https://ProfTest.me/tests","https://TayniyMir.com/testy","https://psi-technology.net/psytest/","https://www.kp.ru/putevoditel/online-test/","https://tvoytest.ru/","https://twizz.ru/tests/","https://lunanews.net/testy/","https://www.ivi.ru/titr/tests","https://sntch.com/tests/","https://testy.online/","https://videouroki.net/tests/","https://www.speedtest.net/ru","https://rb.ru/tests/","https://aznaetelivy.ru/tests/","https://woman-psy.com/psihologicheskie-testy/testy_na_eruditsiyu_i_znaniya/interesnye_testy/","https://mamochka-club.com/psihologicheskie-testy/interesnye-testy/"]}]
mẹo

Để các tùy chọn "Văn bản bắt đầu" và "Văn bản kết thúc" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "Thêm tùy chọn".

Xử lý kết quả

A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đã đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu Yandex

Thêm khử trùng lặp và trong danh sách thả xuống chọn $serp.$i.link - Link.

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJx9VE2P2jAQ/SurEYdWQqvQLpfcWFSqVnTZLuyhohy8ZIJcHNu1HQqK+O+dCUkc
ttVeoszze/NtVxCE3/tHhx6Dh3Rdga3/IYXlpzT9IXSGx5u51Ht/86zl7xJhCFY4
j47p6x6LDjLMRakCDCsIJ4vkxBzQOZmxSmZkW2eOJ4fBSfSEHYQqmTZKkgTOb8jE
Drem1CFqRm/QFedr0bEsKsZJT1K2xVC5nHK6BqrJEsBi2AwbxupC95Sx3kGLflbm
RShIgyvxvNm0XvzMuEJw8wZ2dNt0sjtcigOuDB3mUsXIfkbWgyg4yiATAfn0Nq8d
vXt/G47sQWSZDNJooS4RuPcxajOYFLQhLv1yd2fOFAQFrB0weGqzW8OgtmOV3y8a
SHOhPA7BU6ozQYlkr09kQCeCcQvL+RBegdETpeZ4QBVptf/7UqqMFmWSk+hLI/w/
ZfGPj3NXXj8UDfqPoxw6L7V1v/gWVZmZmx1Vnr3UwyxkINtP6+1JISFwj2i7nj1w
zwrjsAvTeG6i092wqHmr4sgmNkJXZVyN5RrcGp3L3aLZ1JZZ6hVdwIWemsIq5Lp0
qRSNxeNTXI+Jb8bARkzwtXhah+DS23sIwRjlvy4vqVonaf3GnGBBnexHbVxuhVLP
T/P+CcSVIuNnmdzdfeDvx3H9P7ogwNqAO0NbRZWdN90r0b0tVf+tSKszjeqXf7yQ
uC6mEEYN8jQHvuB/AYBymo0=

Thêm khử trùng lặp và trong danh sách thả xuống chọn $serp.$i.link - Link. Chọn loại khử trùng lặp: Tên miền.

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJx9VE2P2jAQ/SvI4tBKCIV2ueTG0lK1ost2YQ8V5WDIBLk4tms7FBTx33fGCXHY
VnuxPG/mzbddMc/dwT1acOAdS9cVM+HOUrb8nKY/ucrg1JsLdXC9ZyX+lNDbnnuf
dMGFYgNmuHVgibju2KMig5yX0rNBxfzZALrTR7BWZIBKkaFsrD6dLXgrwCF25LIk
s1GSJOzyBo3vYadL5SNn9Ia5pMwNWKJFxjjpUMpQFiqxcEo5XTOsySBAZLYZNBar
2jy71l6jX6TecslSb0u4bDZXL26mbcGpjX0zGjY9bZVLfoSVRmUuZIzsZig98IKi
9DPugbTDPDh6937oT+SBZ5nwQisu6wjU+xi1HhHylUZbvFJ3Z1YXCHkIDgg8X7Nb
s36QY5U/ag5Lcy4dDJjDVGccE8lea4QHy722C0P5IF4xrSZSzuEIMpoF//elkBku
yiRH0teG+H+TxT8+Lm153VA46L8Wc2i9BOl+8T2yMj3XexrZNgyzEB5lNw3bk7IE
wQOAaXv2QD0rtIU2TOO5iY6vxICirYojm5gI3ZRxM5ZbcKdVLvaLZlOvlqVa4VNc
qKkujASqS5VS4lgcPMX1mLhmDCTEBF+TpyEElX59h8xrLd23ZZ2qsQLXb0wJFtjJ
btTG5Y5L+fw072pYXCkUfpXJ3d0HOj+Ow31UI4y4HvYatworu2zaX6L9ZaruX5FW
FxzVb/dYG1FdZIIYNsjhHOiBvwAa7J3h

Trích xuất tên miền

Thêm Trình tạo kết quả và trong danh sách thả xuống chọn nguồn: $p1.serp.$i.link - Link. Chọn loại: Extract Domain.

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJx9VEtv2zAM/isFkcMGBIGzNRff0qwBNmRN17SHIetBi+lAiyxpkpwlMPzfR8qO
7XZDL4b5+Eh+fKiCIPzB3zv0GDyk2wps/IcUNrdp+l3oDE9Xt6fgxC5cfTKFkNrD
GKxwHh0jtgNHMmSYi1IFGFcQzhYpjjmiczJDMsqMZOvM6ewwOIkc6ShUyW7TJEmg
fgMm9rgzpQ49ZvqGu5L64C06hvWIWVI/P4+BKFKNfmlcIZjqyE4nLe/OuBFHfDRk
zKXCXr0k6U4UnHKUiYBsneQx0Lv3k3DiCCLLZJBGC9Vk4Db1WZ+0/B0Za0O+9MuN
WDpTkCpgDMDK86W6LYyiDBSijNhvDQbSXCiPY/BU6lJQIdlriwzoRDBubbke0ldg
9FypFR5R9W4x/k0pVUYznecE+twC/++y/idG3dEbpqKZ/HFUQxclSjfrrz0qMyuz
J+bZT+KtZCEDyX4RB51CQsoDou16dsc9K4zDLk0buc1Om2xR8wL0I5vbXvWCxoux
DJQVeFO6HeXbJuMt0KLbWJw+AG9Pu3HYHEVzEzx158SZ9K17MO0WQk2YndG53K/b
Jb1kLvUjnd9aL0xhFXKfdKkUjdnjQ79uc9+OlYWe8GvwIqbgVl5OkGowyn/ZNNSt
k1TSjAkXNJlh1jbkTij19LAaWqBfURJ+lMn19Qf+fpzF/2mjAcYG3BvaUmLGhNsH
ontZquEzkVY1jf6Xv2+cmBe7kI4a5GmufNt/AaiMmIc=
mẹo

Loại bỏ thẻ khỏi anchor và snippet

Thêm Trình tạo kết quả và trong danh sách thả xuống chọn nguồn: $p1.serp.$i.anchor - Anchor. Chọn loại: Remove HTML tags.

Thêm lại Trình tạo kết quả và trong danh sách thả xuống chọn nguồn: $p1.serp.$i.snippet - Snippet. Chọn loại: Remove HTML tags.

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJyVVN9v2jAQ/lcii4dNQihs5SVvFA11Ey0dtA8T64NHLszDsT3bYaCI/313jknS
rqq0lyi+u++7X59dM8/d3t1bcOAdyzY1M+GfZWz9Kcu+cZXDMVlBqQ+Q3DzcLhLP
dy4prC6Tqdr+1NYlGJOslTCGKIbMcOvAEtmmx4GOHApeSc+GNfMnA5gCSa0VOaBT
5Hg2Vh9PFrwVQEwHLisKG6dpys5vwPgOtrpSvsOM3wiXQu2dAUuwDjFJz09PQ4bd
Y41urm3JaQoDMx7FkbTONT/Ag0ZnISR05jme7nhJKQc590DeURGI3r0f+SMx8DwX
XmjFZZOBxtRlfVTid+hYaYzFXxrEHGeNJg+BgIynS3UbNghnhhRVwH5tMCwruHQw
ZA5LnXMsJH/pER4s99ouDdWD9pppNZVyAQeQXVjgv66EzHGn0wJBnyPw9ZDlPxzn
tr1+KtzJH4s1tCzhdL287VC5Xugddp7/wL6lKIXHs5uFRWcsReMewLQzu6OZldpC
myYyx+wocgOKBNCtbGo607M2nq2lZ6yZ05XdYr5NOtwwFLqhrYabwEg/UXM23Jgb
X0pyW8tPaIzRnqQTISTT1xhdc5/+i/KCOSNmq1Uhdsuo/Es7lXrA675UM10aCTR8
VUmJ2nGw6jQ8dVErdOim+BI8CyloP5d7jWVo6b6sm3kaK7CqyTAW3s8aKbdcysfV
ou9hne7x8L1Kr64+0PfjJPyPGwsjrIedRuljZ9RwfHXal6zuvz1ZfUY9/XL3TRD1
RSFowwE5FAs9GH8BhLW+Jg==
mẹo

Bạn có thể thêm Trình tạo kết quả bao nhiêu lần tùy ý.

Xem thêm: Trình tạo kết quả

Thêm bộ lọc và trong danh sách thả xuống chọn: $serp.$i.link - Link. Chọn loại: Chứa chuỗi. Tiếp theo, trong phần Chuỗi ghi dấu hiệu lọc, ví dụ, nếu muốn kết quả chỉ lưu các liên kết có chứa .com, thì ghi nó vào "Chuỗi".

Tải ví dụ

Cách nhập ví dụ vào A-Parser

eJx9VE2P2jAQ/SvI4tBKCMFhL7mxqEit6LJd2EOFOHjxJHJxbNd2KCjKf++ME+Kw
rfaW+Xhv3nw4NQvcn/yzAw/Bs2xfMxu/Wca2X7LsJ9cCLqOVVAGc1MXo7TryIX5J
PVJSn9iEWe48OELvByAMCMh5pQKb1CxcLSCnOYNzUgAGpUDbOnO5OkBG8Og7c1VR
2nw2m7HmAxgv4GgqHRJm/kE66fQWHMES4mE2gOSxQwxi9yQ52zPsyaIjNnmYdBm7
Nv1odOBSDyRPj6ZE09ggjUbbg/asORxujH5lXMlprmM7n3ZD7oNbfoadaXVAcuPc
4YmXxD8WPABFp3kk+vR5Gi7EwIWQVJOrtgLtIVV91fJ31KcN5uInTXrlUGvGAkQC
cl5v6vZsHG3quIrYHy2GZTlXHibMo9QVRyHifUTifHgwbhNngP6aGb1Qag1nUCkt
8j9WUgk8mkWOoK8d8P8pm384mr69YSlc+h+HGnqWaD1uvieUMGtTYOfiLS62lAFt
v4yXlLEZOk8Atp/ZE82sNA76Mh1zVx2fjQVNF5ZWtrDJddfG3VrunXhNuSw23dXe
Miu9w7e50UtTWgXUl66UwrV4eEnnsfDdGshIAt+Dl7EEtX57kywYo/y3bSvVOonn
90ACS5zksGpHeeRKvb6shxGWTiqekyfaI95pYfCCsIvm0P8d+l9MPfxHZHWDa/nl
n9sk6oFS0IfD8PElzZu/Z6ed/A==
mẹo

Các cài đặt có thể có

Tên tham sốGiá trị mặc địnhMô tả
AntiGate presetdefaultChọn mẫu thiết lập sẵn Util::AntiGateUtil::AntiGate, chi tiết về cài đặt tại đây
AntiGate preset for old captchadefaultTương tự như AntiGate preset, nhưng chỉ được sử dụng cho các captcha thông thường (cũ, dưới dạng một hình ảnh). Nếu không chọn mẫu thiết lập sẵn ở đây, mẫu thiết lập sẵn được chọn trong AntiGate preset sẽ được sử dụng cho các captcha này.
Experimental img captcha max count5Số lượng hình ảnh captcha lặp lại tối đa cho mỗi lần thử
Preffered captcha typeClickChọn loại captcha ưu tiên: Click hoặc Puzzle
EngineHTTP (Fast, JavaScript Disabled)Cho phép chọn công cụ: HTTP (nhanh hơn, nhưng khả năng gặp captcha cao hơn) hoặc trình duyệt (chậm hơn, nhưng khả năng gặp captcha thấp hơn)
DeviceModern desktop computer (Windows 10, Chrome 84)Chọn loại kết quả (Desktop computer / Mobile device)
Pages count5Số lượng trang để cào dữ liệu (từ 1 đến 25)
Sort serp by dateSắp xếp kết quả theo ngày
Serp timeAll timeKhoảng thời gian tìm kiếm
Yandex domainwww.yandex.ruTên miền Yandex để cào dữ liệu, hỗ trợ tất cả các tên miền (.ru, .ua, .by, .kz, .com.tr, .com). Bắt đầu từ phiên bản 1.1.345, nó được chọn tự động tùy thuộc vào khu vực đã chọn.
Region of serp (lr=)MoscowChọn khu vực tìm kiếm (tham số lr=)
Custom region IDKhả năng chỉ định id khu vực không có trong danh sách lựa chọn. Tùy chọn này có ưu tiên cao hơn tùy chọn Region of serp (lr=). Cần phải đặt tên miền tương ứng trong Yandex domain.
Search sites from (rstr=)Not setChọn liên kết khu vực của các trang web (tham số rstr=)
LanguageAnyNgôn ngữ của kết quả tìm kiếm (Russian, English, Belorussian, French, German, Indonesian, Kazakh, Tatar, Turkish, Ukrainian)
Parse not foundXác định xem có cào dữ liệu hay không nếu không tìm thấy kết quả nào cho truy vấn tìm kiếm và được đề xuất kết quả cho một truy vấn khác
Not personalizedCá nhân hóa tìm kiếm. Chi tiết tại đây
Filter pagesModerate filterLọc kết quả khỏi nội dung không mong muốn (Family search / Moderate filter / Do not filter)
Use AccountsLàm việc với các tài khoản hiện có trong tệp files/SE-Yandex/accounts.txt. SE::Yandex::RegisterSE::Yandex::Register - Cho phép đăng ký tài khoản trong Yandex
Remove bad accountsXóa các tài khoản không hợp lệ
Quick answers count0Số lượng câu hỏi-trả lời tối đa (Câu trả lời nhanh) cho mỗi truy vấn mà công cụ cào dữ liệu cần thu thập
Parse generative answerCó cần cào dữ liệu câu trả lời tạo sinh hay không (điều này thêm một truy vấn phụ và do đó làm chậm tốc độ làm việc chung)
AccountsOnly from "accounts.txt"Chọn phương pháp làm việc với tài khoản: Always auto register - luôn tự động đăng ký tài khoản "ngay lập tức", yêu cầu chọn mẫu thiết lập sẵn trong tham số SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - đầu tiên sử dụng các tài khoản hiện có từ accounts.txt, nếu hết - sử dụng đăng ký tự động "ngay lập tức", yêu cầu chọn mẫu thiết lập sẵn trong tham số SE::Yandex::Register preset. Only from "accounts.txt" - chỉ sử dụng các tài khoản hiện có từ accounts.txt, nếu hết - chờ thời gian quy định (tham số Wait new accounts in "accounts.txt") để có tài khoản mới. Only by session_id from "accounts.txt" - xác thực qua cookie.
Remove bad accountsAlways, except wrong login/passwordTự động xóa các tài khoản "xấu": Always - luôn xóa. Always, except wrong login/password - luôn xóa, ngoại trừ trường hợp Yandex thông báo sai tên đăng nhập/mật khẩu. Thực tế là Yandex có thể đưa ra thông báo này khi bị chặn IP đối với một tài khoản hoàn toàn hoạt động được, vì vậy có thể tùy chọn giữ lại các tài khoản đó để sử dụng lại. Never - không bao giờ xóa. Bất kể tùy chọn nào được chọn, tài khoản sẽ không bị xóa nếu gặp lỗi proxy/trình duyệt
Use sessionsSử dụng phiên (sessions)
Wait new accounts in "accounts.txt"0Thời gian chờ đợi tài khoản mới xuất hiện trong accounts.txt
SE::Yandex::Register presetdefaultChọn mẫu thiết lập sẵn cho SE::Yandex::RegisterSE::Yandex::Register
Force neuroBuộc bật câu trả lời nơ-ron, tương tự như việc chuyển đổi thủ công giữa "Tìm kiếm" và "Tìm kiếm với Alice"