SE::Yandex::WordStat - Công cụ cào dữ liệu WordStat. Thu thập từ khóa và thống kê lượt hiển thị

Tổng quan về công cụ cào dữ liệu
Wordstat (Vordstat) là một dịch vụ của Yandex, được thiết kế để đánh giá sự quan tâm của người dùng đối với các chủ đề khác nhau và lựa chọn từ khóa để tối ưu hóa SEO và quảng cáo ngữ cảnh. Ngoài ra, với sự trợ giúp của Wordstat Yandex, bạn có thể đánh giá tính thời vụ và sự phụ thuộc vào địa lý của các truy vấn tìm kiếm.
Công cụ cào dữ liệu từ khóa Yandex WordStat hỗ trợ tự động nhân bản truy vấn, bạn có thể chắc chắn rằng mình sẽ nhận được số lượng kết quả tối đa từ kết quả tìm kiếm. Ngoài ra, A-Parser có thể tự động chuyển qua các truy vấn liên quan đến độ sâu được chỉ định.
Chức năng của A-Parser cho phép lưu các cài đặt cào dữ liệu để sử dụng sau này (preset), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế các truy vấn phụ từ tệp, duyệt qua các tổ hợp chữ cái-số và danh sách để có được số lượng kết quả tối đa có thể khi cào dữ liệu Yandex Wordstat.
Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở các định dạng khác nhau, bao gồm JSON, SQL và CSV.
Các trường hợp ứng dụng công cụ cào dữ liệu
🔗 Cào dữ liệu Wordstat theo chiều sâu
Sử dụng công cụ cào dữ liệu Yandex WordStat để cào dữ liệu theo chiều sâu.
🔗 Đánh giá tần suất theo WordStat
Đánh giá tần suất theo WordStat
Tài khoản
Để làm việc với công cụ cào dữ liệu
SE::Yandex::WordStat, cần có tài khoản Yandex. Tài khoản có thể được đăng ký bằng công cụ cào dữ liệu
SE::Yandex::Register hoặc chỉ cần thêm các tài khoản hiện có vào tệp files/SE-Yandex/accounts.txt theo định dạng được hỗ trợ.
Hoặc bạn có thể bật tính năng đăng ký tài khoản "ngay tức thì".
Để làm việc bằng cách sử dụng xác thực qua phiên (session), dòng dữ liệu phải có định dạng sau:
[email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}
Dữ liệu thu thập được
- Số lượng hiển thị cho truy vấn được chỉ định
- Ngày cập nhật thống kê
- Danh sách tất cả các từ khóa liên quan đến từ khóa được chỉ định và số lượng hiển thị của chúng mỗi tháng
- Danh sách tất cả các từ khóa bổ sung mà người dùng đã tìm kiếm và số lượng hiển thị của chúng mỗi tháng

Tính năng
- Cào số lượng kết quả tối đa mà Wordstat cung cấp - 40 trang với 50 phần tử mỗi trang
- Hỗ trợ chọn vùng tìm kiếm (với các nhóm phụ)
- Có thể tự động thay thế các từ khóa tìm thấy vào lại các truy vấn (tùy chọn Parse to level)
- Khả năng chọn nhiều vùng cùng lúc để đánh giá
- Hỗ trợ tự động vượt qua Smart captcha và khả năng vượt qua captcha hình ảnh bằng dịch vụ AntiCaptcha hoặc bất kỳ dịch vụ nào khác hỗ trợ API của họ
- Chọn loại thiết bị
- Khả năng chọn phương thức xác thực
- Khả năng đăng ký tài khoản "ngay tức thì"
- Hỗ trợ làm việc với định dạng tài khoản mở rộng và có thể trả lời câu hỏi bảo mật (nếu câu trả lời có trong
info). Đồng thời sử dụng proxy đã lưu để xác thực (nếu có tronginfo).
Các trường hợp sử dụng
- Đánh giá lượng truy cập theo từ khóa (tần suất)
- Tìm kiếm các từ khóa mới cùng chủ đề
- Thu thập cơ sở dữ liệu từ khóa lớn thuộc các chủ đề khác nhau
- Bất kỳ phương án nào khác liên quan đến việc cào dữ liệu Yandex.WordStat dưới hình thức này hay hình thức khác
Truy vấn
Trong phần truy vấn, cần chỉ định các từ khóa, giống như khi bạn nhập trực tiếp vào biểu mẫu tìm kiếm của Wordstat, ví dụ:
cửa sổ moscow
"cửa sổ moscow"
!cửa sổ !moscow
Các tùy chọn xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý, cũng như dạng cấu trúc như CSV hoặc JSON
Xuất mặc định
Định dạng kết quả:
$query - $totalcount, updated: $updatedate\nkeywords:\n$keys.format('$key: $count\n')\nadditional keywords:\n$search.format('$key: $count\n')
Kết quả hiển thị truy vấn gốc, số lượng hiển thị, ngày cập nhật thống kê, danh sách các từ khóa liên quan và số lần hiển thị hàng tháng của chúng, danh sách các từ khóa bổ sung và số lần hiển thị hàng tháng của chúng:
!cửa sổ !moscow - 10368, cập nhật: 16/05/2013
keywords:
cửa sổ moscow: 32367
cửa sổ nhựa moscow: 8994
cửa sổ pvc moscow: 4813
mua cửa sổ moscow: 2561
giá cửa sổ moscow: 1706
việc làm cửa sổ moscow: 1547
tuyển dụng cửa sổ moscow: 1187
cửa sổ gỗ moscow: 1087
dịch vụ +một cửa moscow: 1021
...
additional keywords:
sản xuất cửa sổ pvc: 8512
cửa sổ rehau: 15686
cửa sổ salamander: 1576
cửa sổ kbe: 3798
cửa sổ kbe: 6089
cửa sổ kve: 3227
lắp kính ban công: 83216
nhà chòi: 471213
lắp kính logia: 26366
vách ngăn văn phòng: 18740
lắp đặt cửa sổ: 26223
Xuất ra bảng CSV
Định dạng kết quả:
[% FOREACH i IN keys;
tools.CSVline(query, i. key, i.count);
END %]
Ví dụ kết quả:
công cụ cào dữ liệu trang web, công cụ cào dữ liệu trang web, 8055
công cụ cào dữ liệu trang web, công cụ cào dữ liệu trang web miễn phí, 1122
công cụ cào dữ liệu trang web, trang web chính thức của công cụ cào dữ liệu, 666
công cụ cào dữ liệu trang web, trang web công cụ cào dữ liệu đám mây, 507
công cụ cào dữ liệu trang web, công cụ cào dữ liệu email +từ trang web, 477
công cụ cào dữ liệu trang web, tải về công cụ cào dữ liệu trang web, 434
công cụ cào dữ liệu trang web, công cụ cào dữ liệu địa chỉ trang web, 390
công cụ cào dữ liệu trang web, công cụ cào dữ liệu trang web trực tuyến, 366
công cụ cào dữ liệu trang web, turbo parser trang web, 342
công cụ cào dữ liệu trang web, trang web chính thức của turbo parser, 309
công cụ cào dữ liệu trang web, trang web chính thức của công cụ cào dữ liệu đám mây, 308
công cụ cào dữ liệu trang web, công cụ cào dữ liệu trang web excel, 276
công cụ cào dữ liệu trang web, sliza parser trang web, 259
Lưu ở định dạng SQL
Định dạng kết quả:
[% FOREACH i IN keys;
"INSERT INTO keys VALUES('" _ query _ "', '"; i.key _ "', '"; i.count _ "')\n";
END %]
Ví dụ kết quả:
INSERT INTO serp VALUES('kiểm tra', 'kiểm tra', '10837937')
INSERT INTO serp VALUES('kiểm tra', 'lái thử', '1164338')
INSERT INTO serp VALUES('kiểm tra', 'bột +để kiểm tra', '879980')
INSERT INTO serp VALUES('kiểm tra', 'kiểm tra trực tuyến', '792560')
INSERT INTO serp VALUES('kiểm tra', 'video lái thử', '550164')
INSERT INTO serp VALUES('kiểm tra', 'công thức làm bột', '484489')
INSERT INTO serp VALUES('kiểm tra', 'bài kiểm tra +có đáp án', '449401')
INSERT INTO serp VALUES('kiểm tra', 'kiểm tra 2014', '427602')
INSERT INTO serp VALUES('kiểm tra', 'kiểm tra miễn phí', '315144')
INSERT INTO serp VALUES('kiểm tra', 'bài kiểm tra miễn phí', '315096')
INSERT INTO serp VALUES('kiểm tra', 'kiểm tra +cho bé gái', '309355')
INSERT INTO serp VALUES('kiểm tra', 'kiểm tra +theo chủ đề', '293917')
INSERT INTO serp VALUES('kiểm tra', 'trò chơi kiểm tra', '288989')
Dump kết quả sang JSON
Định dạng kết quả chung:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.updatedate = p1.updatedate;
obj.totalcount = p1.totalcount;
obj.keys = [];
FOREACH item IN p1.keys;
obj.keys.push({
key = item.key
count = item.count
});
END;
obj.json %]
Văn bản bắt đầu:
[
Văn bản kết thúc:
]
Ví dụ kết quả:
[{
"updatedate": "12.03.2014",
"totalcount": "10837937",
"keys": [
{
"count": "10837937",
"key": "kiểm tra"
},
{
"count": "1164338",
"key": "lái thử"
},
{
"count": "879980",
"key": "bột +để kiểm tra"
},
{
"count": "792560",
"key": "kiểm tra trực tuyến"
},
]
}]
Xem thêm: Bộ lọc kết quả
Các thiết lập có thể có
| Tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Pages count | 10 | Số lượng trang để cào dữ liệu |
| Region | All | Vùng tìm kiếm |
| Remove + from keywords | ☐ | Xóa ký tự dấu cộng (+) khỏi các truy vấn tìm thấy |
| AntiGate preset | default | Cần cấu hình trước công cụ cào dữ liệu Util::AntiGate - chỉ định khóa truy cập của bạn và các tham số khác, sau đó chọn preset đã tạo tại đây |
| AntiGate preset for Login | default | Preset AntiGate để đăng nhập. Cần cấu hình trước công cụ cào dữ liệu Util::AntiGate với các tham số, sau đó chọn preset đã tạo tại đây |
| Type | All | Chọn loại thiết bị |
| Accounts | Only from "accounts.txt" | Chọn phương thức làm việc với tài khoản: Always auto register - luôn tự động đăng ký tài khoản "ngay tức thì", yêu cầu chọn preset đã cấu hình trong tham số SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - trước tiên sử dụng các tài khoản hiện có từ accounts.txt, nếu hết - sử dụng đăng ký tự động "ngay tức thì", yêu cầu chọn preset đã cấu hình trong tham số SE::Yandex::Register preset. Only from "accounts.txt" - chỉ sử dụng các tài khoản hiện có từ accounts.txt, nếu hết - chờ thời gian quy định (tham số Wait new accounts in "accounts.txt") để có tài khoản mới. Only by session_id from "accounts.txt" - xác thực qua cookie. |
| Wait new accounts in "accounts.txt" | 0 | Thời gian chờ tài khoản mới xuất hiện trong accounts.txt |
| Remove bad accounts | Always, except wrong login/password | Tự động xóa các tài khoản "xấu": Always - luôn xóa. Always, except wrong login/password - luôn xóa, ngoại trừ trường hợp Yandex thông báo sai tên đăng nhập/mật khẩu. Thực tế là Yandex có thể đưa ra thông báo như vậy khi chặn IP cho một tài khoản hoàn toàn hoạt động bình thường, vì vậy có thể tùy chọn giữ lại các tài khoản đó để sử dụng lại. Never - không bao giờ xóa. Bất kể tùy chọn nào được chọn, tài khoản sẽ không bị xóa khi có lỗi proxy/trình duyệt |
| SE::Yandex::Register preset | default | Chọn preset cài đặt cho SE::Yandex::Register |
| Authorization method | HTTP | Phương thức xác thực: HTTP - nhanh, không tốn tài nguyên. Chrome - chậm, tốn tài nguyên, về lý thuyết có thể kéo dài tuổi thọ tài khoản |
| Chrome headless | ☑ | Nếu tùy chọn này được bật, trình duyệt sẽ không hiển thị |
| Use sessions | ☑ | Sử dụng phiên (sessions) |
| Do not reset session if authorization passed | ☑ | Không đặt lại phiên khi có lỗi nếu công cụ cào dữ liệu đã xác thực thành công |
| Use Wordstat 2 | ☐ | Sử dụng Wordstat 2 |
| Wordstat 2 parse all table data | ☑ | Cho phép tải ngay tất cả 2000 kết quả theo truy vấn mà không cần duyệt qua phân trang |

