Chuyển đến nội dung chính

SE::Quora - công cụ cào dữ liệu kết quả tìm kiếm Quora

SE::Quora

Tổng quan về công cụ cào dữ liệu

SE::QuoraSE::Quora - công cụ cào dữ liệu kết quả tìm kiếm Quora.

Thu thập kết quả từ dịch vụ cùng tên.

Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn phụ từ tệp, quét các tổ hợp chữ-số và danh sách để nhận được số lượng kết quả tối đa có thể.

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ cào dữ liệu SE::Quora để sử dụng sau này (preset), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.

Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào trình tạo mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

Quora có 6 loại kết quả: Questions, Answers, Posts, Profiles, Topics và Spaces. Mỗi loại có bộ dữ liệu khác nhau, vì vậy trong công cụ cào dữ liệu, mỗi loại được ghi vào một mảng riêng biệt. Tùy thuộc vào loại, các dữ liệu sau sẽ được thu thập:

  • Liên kết đến câu hỏi, nội dung câu hỏi, số lượng câu trả lời và ngày tháng
  • Tác giả câu trả lời, nội dung câu trả lời, liên kết đến phương tiện truyền thông trong câu trả lời, ngày và giờ trả lời, số lượt bình chọn, lượt xem và số lần chia sẻ câu trả lời
  • Liên kết đến bài đăng, tiêu đề bài đăng, nội dung bài đăng, liên kết đến phương tiện truyền thông trong bài đăng, tên và liên kết đến hồ sơ tác giả, ngày và giờ xuất bản, số lượt bình chọn, lượt xem và số lần chia sẻ
  • và các dữ liệu khác tùy thuộc vào loại kết quả

Tính năng

  • Chọn loại kết quả mong muốn hoặc cào dữ liệu tất cả cùng lúc
  • Chọn thời gian của kết quả

Ứng dụng

  • Bất kỳ kịch bản nào cần lấy dữ liệu từ Quora

Truy vấn

Trong phần truy vấn, bạn cần chỉ định các từ khóa, ví dụ:

test

Các ví dụ về định dạng kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ trình tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc như CSV hoặc JSON

Kết quả mặc định

Định dạng kết quả:

$questions.format('$question\n')

Ví dụ kết quả:

What is the best free online IQ test?
What is software testing?
How reliable is the DNA testing offered by sites like Ancestry.com or 23andMe?
How can I pass a urine drug test for meth?
How do you know if you're really smart without taking an IQ test?
Which is the best test series for CAT?
How reliable are online IQ tests?
Is software testing a good career choice?
What is the best test series for the GATE examination?
What is the best way to get my IQ checked online?
...

Lấy cookie

Lấy tùy chọn bắt buộc để ủy quyền

Spoiler: làm thế nào để tìm cookie?
  1. Truy cập quora.com, đăng nhập
  2. Mở Công cụ dành cho nhà phát triển (F12) và làm mới trang
  3. Chuyển sang tab Network, tìm yêu cầu đến quora.com
  4. Sao chép toàn bộ chuỗi cookie cookie
thông tin

Theo thử nghiệm của chúng tôi, tài khoản không bị khóa (điều này có thể thay đổi trong tương lai), nhưng khi cào dữ liệu với hơn 10 luồng, Quora bắt đầu trả về lỗi và thông báo về quá nhiều yêu cầu. Do đó, khuyến khích cào dữ liệu với số lượng luồng nhỏ hoặc sử dụng cookie từ nhiều tài khoản.

Các cài đặt có thể thiết lập

Tham sốGiá trị mặc địnhMô tả
Pages count5Số lượng trang kết quả
Results typeQuestionsLoại kết quả
Results timeAll timeThời gian của kết quả
CookieTrường để chỉ định cookie từ các tài khoản đã đăng nhập. Có thể chỉ định cookie từ nhiều tài khoản, công cụ cào dữ liệu sẽ chọn ngẫu nhiên từ chúng cho mỗi lần thử.