SE::Yandex::Direct - công cụ cào dữ liệu quảng cáo Yandex Direct direct.yandex.ru
Tổng quan về công cụ cào dữ liệu

SE::Yandex::Direct – công cụ cào dữ liệu quảng cáo Yandex Direct. Tự động thu thập tất cả dữ liệu: số lượng quảng cáo cho một truy vấn cụ thể, tiêu đề, văn bản, tên miền, các liên kết bổ sung và văn bản liên kết (anchor), thẻ.Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn con từ tệp, lặp qua các tổ hợp chữ-số và danh sách để nhận được số lượng kết quả tối đa có thể. Bằng cách sử dụng lọc kết quả, bạn có thể làm sạch kết quả ngay lập tức, loại bỏ tất cả rác không cần thiết (sử dụng từ khóa loại trừ).
Chức năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ cào dữ liệu SE::Yandex::Direct để sử dụng sau này (preset), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.
Việc lưu kết quả có thể thực hiện theo bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu tích hợp mạnh mẽ Template Toolkit, cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
- Số lượng quảng cáo cho một truy vấn cụ thể
- Tiêu đề (Title), văn bản và tên miền
- Các liên kết bổ sung và văn bản neo (anchor) của chúng
- Các thẻ (tag)
- Kết quả có phải là quảng cáo hay không
Tính năng
- Cào số lượng kết quả tối đa mà Yandex Direct cung cấp – 10 trang
- Hỗ trợ chọn khu vực tìm kiếm
- Khả năng vượt mã captcha bằng dịch vụ AntiCaptcha hoặc bất kỳ dịch vụ nào khác hỗ trợ API của họ (khuyến nghị bật tham số is_russian trong cài đặt antigate)
Ứng dụng
- Thu thập danh sách đối thủ cạnh tranh quảng cáo theo các truy vấn đã cho
Truy vấn
Trong phần truy vấn, bạn cần chỉ định các cụm từ tìm kiếm, ví dụ:
Mua diều
Photoshop
Cửa sổ tại Moscow
Sửa chữa căn hộ
Thay thế truy vấn
Bạn có thể sử dụng các macro tích hợp để tự động thay thế các truy vấn con từ tệp, ví dụ: chúng ta muốn thêm một danh sách các từ khác vào mỗi truy vấn, hãy chỉ định một vài truy vấn chính:
fantasy
tower defense
rpg
Trong định dạng truy vấn, hãy chỉ định macro thay thế các từ bổ sung từ tệp keywords.txt, phương pháp này cho phép tăng biến thể của các truy vấn lên gấp nhiều lần:
{subs:keywords} $query
Macro này sẽ tạo ra số lượng truy vấn bổ sung tương ứng với số lượng từ có trong tệp cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho kết quả là [số lượng truy vấn gốc] x [số lượng truy vấn trong tệp Keywords] = [tổng số lượng truy vấn] sau khi macro hoạt động.
Ví dụ, nếu tệp keywords.txt chứa:
free
online
Kết quả là macro thay thế sẽ biến 3 truy vấn chính thành 6:
free fantasy
online fantasy
free tower defense
online tower defense
free rpg
online rpg
Các tùy chọn xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý cũng như dạng có cấu trúc như CSV hoặc JSON
Xuất mặc định
Định dạng kết quả:
$query - $totalcount\n$ads.format('$domain: $title - $text\n')
Ví dụ kết quả:
Photoshop - 5
www.syssoft.ru: Adobe Photoshop CS5 - Giảm giá - Photoshop CS5 với mức chiết khấu từ đối tác được ủy quyền. Đặt hàng ngay!
www.disted.ru: Học chụp ảnh! - Đào tạo từ xa bằng tiếng Nga tại Viện Nhiếp ảnh New York.
www.softkey.ru: Bản quyền Adobe Photoshop CS! - Các tính năng làm việc với hình ảnh mới tốt nhất từ Adobe Photoshop.
www.softprof-it.ru: Giấy phép Photoshop từ 23000 rúp - Giá Photoshop thấp - từ 23000 rúp. Hãy gọi ngay. Xác nhận điều kiện mua hàng.
photoshop.pro1904.ru: Làm việc điêu luyện trong Photoshop! - Khóa học độc đáo "Photoshop từ con số 0". Trở thành Bậc thầy Photoshop.
Mua diều - 0
Cửa sổ tại Moscow - 33
www.imperia51.com: Cửa sổ tại Murmansk! Giá thấp! - Giá rất thấp! Bảo hành! Lắp đặt chất lượng! Tất cả có tại «Imperia Okon»!
mirperegorodok-kms.ru: Công ty «Mir Peregorodok» - Hệ thống nhôm: vách ngăn văn phòng, sảnh vào, cửa...
inkar-avto.ru: Moscow-St.Petersburg-Moscow bằng xe buýt - Thứ 2,3,4,5 - 1000 rúp, thứ 6,7,CN - 1300.
Xuất ra bảng CSV
Định dạng kết quả chung:
[% FOREACH i IN p1.ads;
tools.CSVline(i.domain, i.title, i.text);
END %]
Tên tệp:
$datefile.format().csv
Văn bản bắt đầu:
Tên miền,Tiêu đề,Văn bản
Trong Định dạng kết quả chung, bộ tạo mẫu Template Toolkit được áp dụng để xuất các phần tử của mảng $ads trong vòng lặp FOREACH.
Trong tên tệp kết quả, bạn chỉ cần thay đổi phần mở rộng của tệp thành csv.
Để tùy chọn "Prepend text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options". Trong "Prepend text", chúng ta ghi tên các cột cách nhau bằng dấu phẩy và để dòng thứ hai trống.
Lưu ở định dạng SQL
Định dạng kết quả:
[% FOREACH ads;
"INSERT INTO ads VALUES('" _ domain _ "', '" _ title _ "', '" _ text _ "')\n";
END %]
Ví dụ kết quả:
INSERT INTO ads VALUES('oknamr.ru', 'Cửa sổ <b>nhựa</b> giá rẻ <b>tại</b> <b>Moscow</b>: mua với giá thấp...', 'Công ty «<b>CỬA SỔ</b> <b>MOSCOW</b>» thực hiện lắp đặt <b>cửa sổ</b> nhựa, cửa đi và vách ngăn, cũng như lắp kính ban công <b>tại</b> <b>Moscow</b> và vùng phụ cận.')
INSERT INTO ads VALUES('gor-okna.ru', 'Mua <b>cửa sổ</b> PVC giá rẻ | <b>Cửa sổ</b> PVC <b>tại</b> <b>Moscow</b> theo giá...', 'Đặt hàng <b>cửa sổ</b> PVC chất lượng <b>tại</b> <b>Moscow</b> với dịch vụ giao hàng và lắp đặt. ... <b>Moscow</b>. từ 9:00 đến 21:00 hàng ngày.')
INSERT INTO ads VALUES('balcon-msk.ru', 'Lắp kính ban công và logia <b>tại</b> <b>Moscow</b>.', 'Công ty «Ban công <b>Moscow</b>» thực hiện lắp kính chuyên nghiệp cho ban công và logia ... Giá đã bao gồm: <b>Cửa sổ</b> nhôm 3,2x0,7m h-1,5m, thoát nước, lắp đặt...')
INSERT INTO ads VALUES('okna-v-dom.ru', 'Mùa xuân! Đã đến lúc mua <b>cửa sổ</b> PVC mới! Quà tặng – Lưới chống muỗi…', '<b>Cửa sổ</b> 1.3x1.4 1.3x1.4 giá 9900 trọn gói trong nhà chung cư! <b>Cửa sổ</b> 2.0x1.4 2.0x1.4 giá 13500 trọn gói!')
INSERT INTO ads VALUES('topokno72.ru', '<b>Cửa sổ</b> nhựa. Cửa đi, ban công', '<b>Cửa sổ</b> nhựa và bất kỳ kết cấu nào từ PVC WinTech, Exprof, Proplex, Rehau, KBE')
INSERT INTO ads VALUES('okna-moskvy1.ru', '<b>Cửa sổ</b> <b>Moscow</b>. Trang web chính thức', 'Chỉ đến cuối tháng. <b>Cửa sổ</b> REHAU REHAU giảm giá đến 60%%. Tặng kính đa năng. Nhấn ngay!')
INSERT INTO ads VALUES('russia.superjob.ru', 'Nhựa và nhôm <b>cửa sổ</b>', 'Đồng nghiệp mới đang chờ bạn! Tìm kiếm thuận tiện, đề xuất miễn phí, nhập dữ liệu nhanh chóng. · 20 năm trên thị trường. Đề xuất. Tìm kiếm thuận tiện. Hỗ trợ trực tuyến')
INSERT INTO ads VALUES('gorokna-11.ru', '<b>Cửa sổ</b> nhựa <b>tại</b> Vorkuta. <b>Cửa sổ</b>, logia, ban công', '<b>Cửa sổ</b> PVC giảm giá tại Vorkuta')
INSERT INTO ads VALUES('shop.oknagorizont.ru', 'Cửa hàng trực tuyến <b>cửa sổ</b>, nhựa giá rẻ <b>cửa sổ</b>...', 'Cửa hàng trực tuyến <b>cửa sổ</b> không lắp đặt, nhựa giá rẻ <b>cửa sổ</b> ngay hôm nay, giá thấp cho <b>cửa sổ</b>. Có sẵn nhiều và theo yêu cầu, sản xuất nhanh chóng...')
INSERT INTO ads VALUES('msk-oknaidveri.ru', '<b>Cửa sổ</b> nhựa PVC và cửa ra vào kim loại...', '<b>Cửa sổ</b> PVC cổ điển - đó là <b>cửa sổ</b>, làm từ nhựa, được chứng nhận tại Bộ Xây dựng Nga và tuân thủ SNiP và các tiêu chuẩn khác...')
INSERT INTO ads VALUES('oknamag.pro', 'Mua <b>cửa sổ</b> nhựa cho nhà vườn tại Oknamag Pro', 'Kích thước <b>cửa sổ</b> nhựa: cao 600, rộng 600. Các tùy chọn có sẵn.. Xem nhanh. Mã hàng: opd0606.')
INSERT INTO ads VALUES('furnitura-okon.ru', 'Phụ kiện cho <b>cửa sổ</b> nhựa - Phụ tùng...', 'Phụ kiện cho <b>cửa sổ</b> <b>tại</b> bán lẻ và bán buôn. Chúng tôi sẽ giúp bạn chọn đúng linh kiện và phụ tùng cho <b>cửa sổ</b> nhựa của bạn.')
INSERT INTO ads VALUES('OknaGarant.ru', '<b>Cửa sổ</b> nhựa có sẵn <b>tại</b> <b>Moscow</b>, mua mới...', '<b>Cửa sổ</b> đang chờ bạn tại kho của chúng tôi! Kho nằm <b>tại</b> <b>Moscow</b> trong phạm vi MKAD. Tiết kiệm, chi phí thấp hơn đáng kể (so với <b>cửa sổ</b> đặt làm).')
INSERT INTO ads VALUES('domaster.ru', 'Mua phụ kiện cửa sổ và linh kiện <b>tại</b> <b>Moscow</b>...', 'Dành cho <b>cửa sổ</b> và cửa đi. Cửa hàng trực tuyến Brass — nơi bạn mua phụ kiện chăm sóc <b>cửa sổ</b> và linh kiện của nhiều công ty khác nhau với dịch vụ giao hàng toàn nước Nga.')
INSERT INTO ads VALUES('sms-m.ru', 'Nhựa <b>cửa sổ</b> sản xuất <b>tại</b> <b>Moscow</b>', 'Khi nảy sinh vấn đề về việc giảm thiểu chi phí trong sản xuất các tòa nhà mô-đun, công ty StroyMontazhService-M đã quyết định triển khai dây chuyền sản xuất riêng...')
INSERT INTO ads VALUES('rosband.ru', 'Mua nhựa <b>cửa sổ</b> <b>tại</b> <b>Moscow</b>', 'Nhựa <b>cửa sổ</b> có đặc tính cách nhiệt tuyệt vời và không cần phải chi tiêu nhiều hơn ... tp. <b>Moscow</b>, 1-ngõ Dobryninsky thứ nhất, 19 str. 6.')
INSERT INTO ads VALUES('moskva.miltor.ru', 'Mua <b>cửa sổ</b> nhựa <b>tại</b> <b>Moscow</b>: 185 đề xuất', 'Bạn có thể mua <b>cửa sổ</b> nhựa <b>tại</b> <b>Moscow</b> bằng cách sử dụng các quảng cáo trên trang web của chúng tôi. Tại đây bạn sẽ biết giá <b>cửa sổ</b> nhựa, điều kiện đặt hàng và địa chỉ...')
INSERT INTO ads VALUES('city-jaluzi.ru', 'Mua rèm cho <b>cửa sổ</b> giá rẻ <b>tại</b> <b>Moscow</b> - đánh giá, ảnh...', 'Sản xuất rèm cho <b>cửa sổ</b>, may rèm vải, lắp ráp thanh treo và rèm cuốn theo yêu cầu từ năm 2006. Giá từ 495 đến 5 900 ₽ cho 1 m2, Đo đạc miễn phí và...')
Kết xuất kết quả sang JSON
Định dạng kết quả chung:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.ads = [];
FOREACH item IN p1.ads;
obj.ads.push({
domain = item.domain
title = item.title
text = item.text
});
END;
obj.json %]
Văn bản bắt đầu:
[
Văn bản kết thúc:
]
Ví dụ kết quả:
[{"ads": [{"domain":"oknamr.ru","text":"Công ty «<b>CỬA SỔ</b> <b>MOSCOW</b>» thực hiện lắp đặt nhựa <b>cửa sổ</b>, cửa đi và vách ngăn, cũng như lắp kính ban công <b>tại</b> <b>Moscow</b> và vùng phụ cận.","title":"Nhựa <b>cửa sổ</b> giá rẻ <b>tại</b> <b>Moscow</b>: mua với giá thấp..."},{"domain":"gor-okna.ru","text":"Đặt hàng chất lượng <b>cửa sổ</b> PVC <b>tại</b> <b>Moscow</b> với dịch vụ giao hàng và lắp đặt. ... <b>Moscow</b>. từ 9:00 đến 21:00 hàng ngày.","title":"Mua <b>cửa sổ</b> PVC giá rẻ | <b>Cửa sổ</b> PVC <b>tại</b> <b>Moscow</b> theo giá..."},{"domain":"balcon-msk.ru","text":"Công ty «Ban công <b>Moscow</b>» thực hiện lắp kính chuyên nghiệp cho ban công và logia ... Giá đã bao gồm: <b>Cửa sổ</b> nhôm 3,2x0,7m h-1,5m, thoát nước, lắp đặt...","title":"Lắp kính ban công và logia <b>tại</b> <b>Moscow</b>."},{"domain":"oknamarket33.rf","text":"<b>Cửa sổ</b> 1.3x1.4 1.3x1.4 giá 9900 trọn gói trong nhà chung cư! <b>Cửa sổ</b> 2.0x1.4 2.0x1.4 giá 13500 trọn gói!","title":"Mùa xuân! Thời điểm mua mới <b>cửa sổ</b> PVC! Quà tặng – Lưới chống muỗi…"},{"domain":"okna-moskvy1.ru","text":"Chỉ đến cuối tháng. <b>Cửa sổ</b> REHAU REHAU giảm giá đến 60%%. Tặng kính đa năng. Nhấn ngay!","title":"<b>Cửa sổ</b> <b>Moscow</b>. Trang web chính thức"},{"domain":"окно61.рф","text":"Nhựa <b>cửa sổ</b> giá thấp! Lắp đặt chất lượng. Giao hàng nhanh chóng. Bảo hành.","title":"<b>Cửa sổ</b> <b>tại</b> Bataysk! Giảm giá theo mùa"},{"domain":"gorokna-11.ru","text":"<b>Cửa sổ</b> PVC giảm giá tại Vorkuta","title":"Nhựa <b>cửa sổ</b> <b>tại</b> Vorkuta. <b>Cửa sổ</b>,logia, ban công"}]}]
Để các tùy chọn "Prepend text" và "Append text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".
Các cài đặt khả dụng
| Tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Pages count | 10 | Số lượng trang cần cào dữ liệu |
| Region of serp (lr=) | Moscow | Chọn khu vực tìm kiếm (tham số lr=) |
| AntiGate preset | default | Sử dụng dịch vụ giải mã captcha. Cần phải cấu hình trước công cụ cào dữ liệu Util::AntiGate - nhập khóa truy cập của bạn và các tham số khác, sau đó chọn preset đã tạo tại đây |
