Chuyển đến nội dung chính

Trình tạo kết quả

Result Builders (Trình tạo kết quả) - cho phép biến đổi kết quả từ mỗi công cụ cào dữ liệu trước khi chúng được định dạng và lưu vào đĩa

Tính năng

  • Chia kết quả thành các phần bằng biểu thức chính quy hoặc bằng dấu phân cách tùy ý
  • Thay thế chuỗi con trong kết quả hoặc thay thế bằng biểu thức chính quy
  • Trích xuất tên miền hoặc tên miền chính từ liên kết
  • Chuyển đổi kết quả sang chữ hoa\chữ thường
  • Xóa các thẻ HTML (<b>text</b> -> text)
  • Chuyển đổi các thực thể HTML sang các ký tự Unicode tương đương (&copy; -> ©)
  • Lấy dữ liệu bằng các truy vấn XPath
Trình tạo kết quả

Ví dụ

Cào dữ liệu tên miền

Chỉ lưu tên miền khi cào dữ liệu liên kết từ các công cụ tìm kiếm:

Cào dữ liệu tên miền

Các phần tử link từ mảng serp của công cụ cào dữ liệu đầu tiên được sử dụng làm nguồn, hàm trích xuất tên miền chính từ liên kết sẽ được áp dụng cho mỗi phần tử, kết quả mới sẽ được lưu dưới cùng một tên (phần tử link trong mảng serp) - do đó không cần thay đổi định dạng kết quả

Cào dữ liệu đoạn trích với làm sạch

Lưu các đoạn trích (snippet) từ công cụ tìm kiếm với việc làm sạch các thẻ HTML và chuyển đổi các thực thể HTML

Theo mặc định, các văn bản neo (anchor) và đoạn trích được cào dữ liệu cùng với tất cả các thẻ lồng nhau, cho phép giữ nguyên định dạng như khi xem kết quả từ công cụ tìm kiếm. Nếu chỉ cần văn bản thuần túy, bạn có thể sử dụng các tính năng của Trình tạo kết quả:

Cào dữ liệu đoạn trích với làm sạch

Trong ví dụ này, hai Trình tạo kết quả được áp dụng tuần tự cho các đoạn trích - xóa các thẻ HTML và chuyển đổi các thực thể HTML

Cào dữ liệu bằng XPath

Cào dữ liệu liên kết từ kết quả tìm kiếm bằng XPath:

Cào dữ liệu bằng XPath

Ví dụ này minh họa việc cào dữ liệu liên kết từ công cụ tìm kiếm Google. Truy vấn XPath được sử dụng:

//*[@id="rso"]/div[3]/div/div[1]/a/@href