Chuyển đến nội dung chính

Tại sao cần cập nhật và tại sao chúng có tính phí?

A-Parser luôn không ngừng phát triển. Với việc ra mắt các phiên bản mới, các cải tiến và sửa lỗi liên tục được thực hiện. Trong bài viết này, chúng ta sẽ tìm hiểu các bản cập nhật là gì, chúng khác gì với giấy phép, vai trò của chúng và tại sao cần phải trả phí cho chúng.

Giấy phép ≠ cập nhật

Khi mua A-Parser, bạn nhận được một giấy phép vĩnh viễn để sử dụng và từ 3-6 tháng cập nhật miễn phí tùy thuộc vào loại giấy phép đã mua. Sau khi kết thúc giai đoạn cập nhật miễn phí, bạn có thể cập nhật lên phiên bản ổn định mới nhất hiện có và tiếp tục sử dụng công cụ cào dữ liệu một cách đầy đủ — trong phạm vi mà phiên bản có sẵn tại thời điểm kết thúc đăng ký cho phép.

Để gia hạn đăng ký, bạn có thể mua một trong ba gói cập nhật: 3 tháng, một năm và trọn đời với giá lần lượt là $49, $149 và $399.

Bạn không cần phải trả phí cập nhật liên tục. Không cần thiết phải thanh toán cho khoảng thời gian mà bạn không đăng ký cập nhật.

Tại sao các bản cập nhật lại có phí?

🐞 Sửa lỗi

Các trang web và các loại tài nguyên khác nhau phát triển khá nhanh. Bất kỳ thay đổi nào, dù là nhỏ nhất từ phía trang web mục tiêu, cũng có khả năng ảnh hưởng đến việc cào dữ liệu. Điều này xảy ra bởi vì ban đầu các công cụ cào dữ liệu được thiết kế cho một cấu trúc nhất định, và những thay đổi trong bố cục (layout), bảo mật hoặc các cơ chế nội bộ khác sẽ dẫn đến dữ liệu trong kết quả không chính xác, thiếu dữ liệu hoàn toàn hoặc các lỗi khác. Bản thân việc cào dữ liệu gây tác động tiêu cực đến các máy chủ dành cho trang web: các yêu cầu tăng lên và kéo theo đó là tải trọng. Các dịch vụ bị mất lợi nhuận buộc phải tìm lối thoát cho tình trạng này, do đó các loại bảo mật mới xuất hiện và các loại cũ được phát triển thêm.

Với mỗi thay đổi như vậy, cần phải thực hiện các chỉnh sửa. Đằng sau mỗi chỉnh sửa là việc phân tích vấn đề, tìm kiếm giải pháp và triển khai nó.

Bạn có thể xem tất cả các thay đổi trên diễn đàn

🧰 Hàng ngày, mỗi công cụ cào dữ liệu tích hợp đều trải qua hệ thống kiểm tra nội bộ. Nếu các yêu cầu kiểm tra hoàn thành thành công, các giá trị nhận được trong kết quả sẽ được kiểm tra. Một bài kiểm tra thất bại sẽ báo hiệu các lỗi hiện có trong công cụ cào dữ liệu. Nhờ các bài kiểm tra, chúng tôi phản ứng nhanh chóng với các sự cố và bắt đầu làm việc để khắc phục chúng ngay lập tức.

Một trong những công cụ phức tạp, được yêu cầu nhiều nhất và do đó được ưu tiên hàng đầu đối với chúng tôi là các công cụ cào dữ liệu công cụ tìm kiếm Yandex và Google. Mỗi công cụ bao gồm nhiều phần giải quyết các nhiệm vụ cụ thể. Trong số đó có việc chuẩn bị yêu cầu, tạo tiêu đề (headers), lấy mã nguồn trang, các loại định dạng kết quả khác nhau, làm việc với captcha, v.v. Tất cả những điều này cần được duy trì ở trạng thái hoạt động tốt. Công cụ cào dữ liệu cung cấp các biến chứa tất cả dữ liệu cần thiết từ trang: kết quả tìm kiếm, quảng cáo, từ khóa liên quan và các giá trị khác. Chúng được trích xuất bằng các biểu thức chính quy (regular expressions), vốn giả định sự tồn tại của một cấu trúc tài liệu nhất định trên trang (thứ tự các phần tử, loại của chúng, class và các dấu hiệu khác). Khi cấu trúc này thay đổi đáng kể, biểu thức chính quy phù hợp với phiên bản cũ sẽ không còn lấy được đoạn mã cần thiết, và công cụ cào dữ liệu sẽ được đưa đi cải tiến.

✨ Cải tiến

Ngoài việc duy trì khả năng hoạt động của các công cụ cào dữ liệu tích hợp, với mỗi phiên bản, các tính năng mới được thêm vào và các cải tiến khác nhau được thực hiện, ảnh hưởng đến cả hiệu suất lẫn số lượng dữ liệu thu thập được. Các công cụ cào dữ liệu mới được đưa vào phiên bản, các phương thức mới được triển khai trong JavaScript API.

Bạn có thể xem tất cả các thay đổi tại đây.

Việc thiếu các bản cập nhật kịp thời sẽ dẫn đến hoạt động không chính xác của các công cụ cào dữ liệu tích hợp. Nguyên nhân có thể khác nhau. Ví dụ, bố cục trang web có thể đã thay đổi. Công cụ cào dữ liệu không nhận được bản cập nhật sẽ cố gắng thu thập dữ liệu bằng các biểu thức chính quy cũ, không thích ứng với định dạng mới. Kết quả là xuất hiện các yêu cầu thất bại, nảy sinh các loại lỗikhông có kết quả.

Ví dụ với công cụ cào dữ liệu Google

Một người dùng đã liên hệ với bộ phận hỗ trợ về vấn đề sau:

Tôi đang thu thập kết quả tìm kiếm Google với proxy của các bạn. Đã thiết lập 300 lần thử cho mỗi yêu cầu. Tất cả các yêu cầu đều thất bại. Mới hôm qua mọi thứ vẫn hoạt động bình thường.

Thoạt nhìn, có vẻ như vấn đề nằm ở proxy, nhưng các bài kiểm tra với cài đặt và yêu cầu tương tự trên phiên bản mới nhất lại hoạt động thành công. Nghĩa là vấn đề nằm ở chỗ khác. Trong quá trình trao đổi, hóa ra người dùng đang sử dụng phiên bản A-Parser . Đây chính là nguyên nhân thực sự khiến công cụ cào dữ liệu Google hoạt động không chính xác.

Ví dụ với công cụ cào dữ liệu Yandex

Tại Yandex, bố cục các trang có captcha đã thay đổi, khiến nó không còn được giải mã. Trên diễn đàn trong phần Nhiệm vụ, một chủ đề tương ứng đã được tạo.

Ví dụ về vấn đề trong SE::Yandex

Sáng hôm sau, bản sửa lỗi đã được phát hành. Nhiệm vụ đã được đóng và chuyển sang phần Next release. Đó là nơi chứa các chủ đề về tất cả các bản sửa lỗi và cải tiến sẽ được đưa vào phiên bản ổn định tiếp theo.

Theo đó, trong A-Parser không nhận được bản cập nhật mới nhất, captcha trong Yandex sẽ không còn được giải mã nữa.

Kết luận

Khi mua A-Parser, bạn nhận được một giấy phép sử dụng chương trình vĩnh viễn và một gói cập nhật miễn phí trong một khoảng thời gian nhất định. Nếu cần thiết, sau khi hết hạn đăng ký, bạn có thể gia hạn bằng cách mua một trong các gói cập nhật được đề xuất.

Các trang web không ổn định – các công cụ cào dữ liệu yêu cầu các điều chỉnh và cải tiến liên tục. Duy trì trạng thái hoạt động của chúng là công việc của chúng tôi. Đây là nhiệm vụ ưu tiên mà chúng tôi dành nhiều nỗ lực để phát hành các bản sửa lỗi hoạt động nhanh nhất có thể. Chi phí cập nhật phản ánh công sức đằng sau đó. Mỗi phiên bản không chỉ đơn thuần là một danh sách các bản sửa lỗi và cải tiến – đó là thành quả của nhiều tháng làm việc tập trung của đội ngũ A-Parser.