Câu hỏi thường gặp
1. Các câu hỏi liên quan đến bản demo, thanh toán và mua hàng
1.1. Làm thế nào để tải kết quả trong phiên bản Demo?
Trong phiên bản Demo, kết quả công việc không có sẵn để tải xuống. Chúng tôi cung cấp chúng theo yêu cầu của bạn. Hãy gửi các truy vấn của bạn và cho biết công cụ cào dữ liệu nào bạn quan tâm, và chúng tôi sẽ gửi kết quả cho bạn (trong phạm vi demo số lượng kết quả bị giới hạn).
1.2. Có cần phải trả thêm phí cho bất cứ điều gì sau khi mua A-Parser không?
Không. Chi tiết hơn: giấy phép và tiện ích bổ sung, trang mua hàng.
1.3. Ở đâu và làm thế nào để thanh toán cho proxy?
Khi mua giấy phép, bạn sẽ được cung cấp Proxy thưởng.
Lite - 20 luồng trong 2 tuần, Pro và Enterprise - 50 luồng trong một tháng.
Bạn có thể mua thêm luồng hoặc gia hạn trong Khu vực Thành viên tại tab Cửa hàng, mục con Proxy.
1.4. Bạn có thể thiết lập tác vụ cho tôi với một khoản phí không?
Hỗ trợ kỹ thuật cho các câu hỏi liên quan đến hoạt động của A-Parser được cung cấp miễn phí. Về việc hỗ trợ trả phí trong việc thiết lập tác vụ, bạn có thể liên hệ tại đây: Dịch vụ trả phí về thiết lập tác vụ, hỗ trợ cài đặt và đào tạo sử dụng A-Parser.
1.5. Tôi có thể thực hiện thanh toán cho công cụ cào dữ liệu qua ngân hàng Privat24 không? Qua KIWI không?
Danh sách các hệ thống thanh toán mà chúng tôi làm việc được chỉ định tại đây: mua A-Parser.
1.6. Nếu tôi chỉ cần cào số lượng trang được lập chỉ mục trong Yandex, tôi nên mua công cụ cào dữ liệu nào?
Cho các mục đích như vậy, phiên bản Lite là đủ, nhưng Pro thực tế và linh hoạt hơn trong công việc.
1.7. Xem thông tin về giấy phép của tôi ở đâu?
1.8. Có thể sử dụng proxy đã mua từ nhiều ip không?
Không.
2. Các câu hỏi về cài đặt, khởi chạy và cập nhật
2.1. Tôi nhấn nút Download - nhưng tệp nén không được tải xuống. Phải làm gì?
Kiểm tra xem bạn có còn dung lượng trống trên ổ cứng không, tắt phần mềm diệt virus. Làm theo hướng dẫn cài đặt. Ngoài ra, hãy làm quen với Cách bắt đầu làm việc.
2.2. Đã mua phiên bản Enterprise, nhưng vẫn đang cài đặt bản PRO. Phải làm gì?
Xóa phiên bản trước đó. Trong Members Area, hãy kiểm tra xem địa chỉ IP của bạn đã được đăng ký chính xác chưa. Trước khi tải xuống, hãy nhấn nút Update (Cập nhật). Tải xuống phiên bản mới hơn. Chi tiết hơn trong hướng dẫn cài đặt.
2.3. Đã cài đặt chương trình nhưng nó không khởi chạy, phải làm gì?
Kiểm tra các ứng dụng đang chạy, tắt phần mềm diệt virus, kiểm tra dung lượng bộ nhớ RAM còn trống. Ngoài ra, trong Khu vực Thành viên, hãy kiểm tra xem địa chỉ IP của bạn đã được đăng ký chính xác chưa. Chi tiết hơn: hướng dẫn cài đặt.
2.4. Phải làm gì nếu tôi có địa chỉ IP động?
Không có gì đáng ngại, A-Parser hỗ trợ làm việc với địa chỉ IP động. Mỗi khi nó thay đổi, bạn chỉ cần đăng ký lại trong Members Area. Để tránh các thao tác này, khuyến khích sử dụng địa chỉ IP tĩnh.
2.5. Các thông số tối ưu của máy chủ, máy tính để cài đặt công cụ cào dữ liệu là gì?
Tất cả các yêu cầu hệ thống có thể được xem tại đây: yêu cầu hệ thống.
2.6. Đã chạy tác vụ. Công cụ cào dữ liệu bị sập và không khởi chạy lại được nữa, phải làm gì?
Cần phải dừng máy chủ, kiểm tra xem tiến trình có còn treo trong bộ nhớ không và thử khởi chạy lại. Bạn cũng có thể thử khởi chạy A-Parser với việc dừng tất cả các tác vụ. Để làm điều này, cần khởi chạy với tham số -stoptasks. Chi tiết về khởi chạy với tham số.
2.7. Nhập mật khẩu nào khi mở địa chỉ 127.0.0.1:9091?
Nếu đây là lần khởi chạy đầu tiên, mật khẩu sẽ để trống. Nếu không phải lần đầu - thì là mật khẩu mà bạn đã đặt. Nếu quên mật khẩu - đặt lại mật khẩu.
2.8. Trong Khu vực Thành viên tôi nhập IP của mình, nhưng nó không thay đổi trong trường IP hiện tại của bạn. Tại sao?
Trường Your current IP (IP hiện tại của bạn) hiển thị IP hiện đang có hiệu lực của bạn và nó không được thay đổi. Bạn phải điền chính IP đó vào trường IP 1.
2.9. Tôi có thể chạy đồng thời hai bản sao không?
Bạn có thể chạy hai bản sao trên cùng một máy chỉ khi chúng được chỉ định các cổng khác nhau trong tệp cấu hình.
Chạy hai A-Parser trên các máy khác nhau cùng lúc chỉ có thể nếu bạn đã mua thêm IP trong Khu vực Thành viên.
2.10. Công cụ cào dữ liệu có bị khóa theo phần cứng không?
Không. IP của bạn được sử dụng để kiểm soát giấy phép.
2.11. Câu hỏi về cập nhật - chỉ cập nhật .exe? config/config.db và files/Rank-CMS/apps.json - những tệp này dùng để làm gì?
Trừ khi có quy định khác, chỉ cập nhật tệp .exe. Tệp đầu tiên dùng để lưu trữ cấu hình A-Parser, và tệp thứ hai là cơ sở dữ liệu để xác định CMS và phục vụ hoạt động của chính công cụ cào dữ liệu
Rank::CMS.
2.12. Tôi có Win Server 2008 Web Edition - công cụ cào dữ liệu không khởi chạy...
Trên phiên bản hệ điều hành này A-Parser sẽ không hoạt động. Lựa chọn duy nhất là thay đổi hệ điều hành.
2.13. Tôi có bộ vi xử lý 4 nhân. Tại sao A-Parser chỉ sử dụng một nhân?
A-Parser sử dụng từ 2 đến 4 nhân, các nhân bổ sung chỉ được sử dụng khi lọc, trong Trình tạo kết quả (Results Builder), Parse custom result
2.14. Tôi bắt đầu gặp lỗi phân đoạn (segmentation failed, segmentation error). Phải làm gì?
Rất có thể IP của bạn đã thay đổi. Hãy kiểm tra trong Khu vực Thành viên.
2.15. Tôi dùng Linux. A-Parser đã khởi chạy nhưng không mở được trong trình duyệt. Cách giải quyết?
Kiểm tra tường lửa - rất có thể nó đang chặn truy cập.
2.16. Tôi dùng Windows 7. A-Parser đã khởi chạy nhưng không mở được trong trình duyệt và trong trình quản lý tác vụ không có tiến trình Node.js. Cách giải quyết?
Cần kiểm tra các bản cập nhật Windows và cài đặt các bản mới nhất có sẵn. Cụ thể là cần bản cập nhật Windows 7 SP1.
2.17. A-Parser không khởi chạy và trong aparser.log ghi lỗi FATAL: padding_depad failed: Invalid argument provided. at ./Crypt/Mode/CBC.pm line 20.
Rất có thể phát sinh vấn đề với một tác vụ nào đó (thư mục /config/tasks/), do lỗi đĩa (ví dụ nếu nguồn điện PC bị ngắt mà không tắt máy đúng cách), chi tiết hơn có thể biết nếu khởi chạy A-Parser với cờ -morelogs
Giải pháp: khởi chạy A-Parser với tham số -stoptasks. Nếu không giúp ích, hãy xóa sạch toàn bộ /config/tasks/. Nếu sau đó vấn đề vẫn không được khắc phục, hãy cài đặt lại công cụ cào dữ liệu vào một thư mục mới và chép cấu hình từ bản cũ sang (nếu nó không bị hỏng).
3. Các câu hỏi về thiết lập A-Parser và các cài đặt khác
3.1. Làm thế nào để thiết lập trình kiểm tra proxy?
Hướng dẫn chi tiết nằm ở đây: thiết lập proxy.
3.2. Không có proxy nào hoạt động - tại sao?
Kiểm tra kết nối internet của bạn, cũng như tính chính xác của việc thiết lập trình kiểm tra proxy (proxy checker). Nếu mọi thứ được thực hiện đúng, điều đó có nghĩa là hiện tại danh sách proxy của bạn không chứa máy chủ nào đang hoạt động. Giải pháp cho vấn đề này: hoặc sử dụng các proxy khác, hoặc thử lại sau. Nếu bạn sử dụng proxy của chúng tôi, hãy kiểm tra địa chỉ IP trong Khu vực Thành viên tại phần Proxies (Proxy). Cũng có khả năng nhà cung cấp dịch vụ của bạn chặn truy cập vào các dns khác, hãy thử thực hiện các bước được mô tả tại đây: http://a-parser.com/threads/1240/#post-3582
3.3. Làm thế nào để kết nối antigate?
Hướng dẫn chi tiết về thiết lập antigate tại đây.
3.4. Tôi đã thay đổi các tham số trong cài đặt của công cụ cào dữ liệu, nhưng chúng không được áp dụng. Tại sao?
Mẫu mặc định (default) không thể thay đổi, nếu có bất kỳ thay đổi nào được thực hiện, bạn cần nhấn Save as New Preset (Lưu thành mẫu mới), và sau đó sử dụng nó trong tác vụ của mình.
3.5. Có thể thay đổi cài đặt của một tác vụ đang chạy không?
Có thể, nhưng không phải tất cả. Trong một tác vụ đang chạy, bạn có thể nhấn tạm dừng và tại menu thả xuống chọn Edit (Chỉnh sửa).
3.6. Làm thế nào để nhập mẫu?
Nhấn nút bên cạnh trường chọn tác vụ trong Trình chỉnh sửa tác vụ. Chi tiết tại đây.
3.7. Làm thế nào để thiết lập công cụ cào dữ liệu để nó không sử dụng proxy?
Trong cài đặt của công cụ cào dữ liệu tương ứng, bỏ chọn Use proxy.
3.8. Tôi không có nút Thêm ghi đè / Override option!
Tùy chọn này có thể được thêm trực tiếp trong Trình chỉnh sửa tác vụ. Tùy chọn công cụ cào dữ liệu.
3.9. Làm thế nào để ghi đè vào cùng một tệp kết quả?
Khi thiết lập tác vụ, hãy chọn tùy chọn Overwrite file (Ghi đè tệp).
3.10. Thay đổi mật khẩu cho công cụ cào dữ liệu ở đâu?
3.11. Đã đặt 6 triệu từ khóa để cào dữ liệu, cũng đã chỉ định để tất cả các tên miền là duy nhất. Làm thế nào để khi tôi đặt 6 triệu từ khóa mới, chỉ những tên miền duy nhất không trùng lặp với lần cào trước đó được ghi lại?
Cần sử dụng tùy chọn Keep unique (Lưu trạng thái khử trùng lặp) khi thiết lập tác vụ đầu tiên, và chỉ định cơ sở dữ liệu đã lưu trong tác vụ thứ hai. Chi tiết trong Các tùy chọn bổ sung của trình chỉnh sửa tác vụ.
3.12. Làm thế nào để vượt qua giới hạn 1000 kết quả cho Google?
Sử dụng tùy chọn Cào tất cả kết quả / Parse all results.
3.13. Làm thế nào để vượt qua giới hạn 1024 luồng trên Linux?
3.14. Giới hạn luồng trên Windows là bao nhiêu?
Lên đến 10000 luồng.
3.15. Làm thế nào để làm cho các truy vấn trở nên duy nhất?
Sử dụng tùy chọn Unique queries (Khử trùng lặp truy vấn) trong khối Queries (Truy vấn) trong Trình chỉnh sửa tác vụ.

3.16. Làm thế nào để tắt kiểm tra proxy?
Trong Cài đặt - Cài đặt trình kiểm tra proxy, chọn trình kiểm tra proxy cần thiết và thêm dấu tích No check proxies (Không kiểm tra proxy). Lưu và chọn mẫu đã lưu.
3.17. Proxy ban time là gì? Tôi có thể đặt nó bằng 0 không?
Thời gian chặn proxy tính bằng giây. Có, bạn có thể.
3.18. Sự khác biệt giữa Exact Domain và Top Level Domain trong công cụ cào dữ liệu
SE::Google::Position là gì?
Exact Domain - đây là sự khớp chính xác, nghĩa là nếu trong kết quả là www.domain.com, mà chúng ta tìm domain.com, thì sẽ không có sự khớp. Top Level Domain so sánh toàn bộ tên miền cấp cao nhất, nghĩa là ở đây sẽ có sự khớp.
3.19. Nếu chạy cào dữ liệu thử nghiệm - mọi thứ đều hoạt động, nếu chạy bình thường - nhận được lỗi Some error.
Rất có thể vấn đề nằm ở dns, hãy thử thực hiện hướng dẫn thiết lập dns này.
3.20. Định dạng kết quả được thiết lập ở đâu?
Khi định dạng kết quả hãy sử dụng \n. Ví dụ:
3.21. Trong
SE::Google thiếu tiếng Hà Lan, mặc dù trong cài đặt của Google có ngôn ngữ này. Tại sao?
Tiếng Hà Lan là Dutch, nó đã có trong danh sách. Chi tiết trong cải tiến về việc thêm tiếng Hà Lan.
4. Câu hỏi về cào dữ liệu và lỗi trong quá trình cào dữ liệu
4.1. Luồng là gì?
Tất cả các bộ vi xử lý hiện đại đều có thể thực hiện các tác vụ đa luồng, giúp tăng đáng kể tốc độ thực thi. Để so sánh, có thể lấy ví dụ về một chiếc xe buýt thông thường vận chuyển một lượng người nhất định trong một đơn vị thời gian - đó là xử lý đơn luồng thông thường, và một chiếc xe buýt hai tầng vận chuyển gấp đôi số người trong cùng một khoảng thời gian - đó là xử lý đa luồng. A-Parser có thể xử lý đồng thời lên đến 10000 luồng.
4.2. Tác vụ không khởi chạy - báo Some Error - tại sao?
Kiểm tra địa chỉ IP trong Khu vực Thành viên.
4.3. Tất cả các truy vấn đều thất bại, phải làm gì?
Rất có thể tác vụ được thiết lập không chính xác hoặc sử dụng định dạng truy vấn sai. Ngoài ra, hãy kiểm tra xem có proxy còn hoạt động không. Bạn cũng có thể thử tăng tùy chọn Request retries (chi tiết tại đây: các yêu cầu thất bại).
4.4. Cần đăng ký bao nhiêu tài khoản để cào 1.000.000 từ khóa với
SE::Yandex::Wordstat?
Không thể nói chính xác cần bao nhiêu tài khoản, vì một tài khoản có thể ngừng hoạt động sau một số lượng truy vấn không xác định. Nhưng bạn luôn có thể đăng ký tài khoản mới bằng công cụ cào dữ liệu
SE::Yandex::Register hoặc chỉ cần thêm các tài khoản hiện có vào tệp files/SE-Yandex/accounts.txt.
4.5. Tác vụ không khởi chạy, báo Error: Lock 100 threads failed(20 of limit 100 used) phải làm gì?
Cần tăng số lượng luồng tối đa khả dụng trong cài đặt công cụ cào dữ liệu, hoặc giảm trong cài đặt tác vụ. Chi tiết trong Cài đặt.
4.6. Có thể chạy 2 tác vụ cùng lúc không?
Có, A-Parser hỗ trợ thực hiện nhiều tác vụ cùng lúc. Số lượng tác vụ hoạt động đồng thời được điều chỉnh trong Cài đặt - Cài đặt chung: Tối đa tác vụ hoạt động.
4.7. Tệp kết quả nằm ở đâu?
Trên tab Tasks Queue (Hàng đợi tác vụ), sau khi kết thúc mỗi tác vụ, bạn có thể tải xuống kết quả làm việc. Về mặt vật lý, chúng nằm trong thư mục results.
4.8. Có thể tải tệp kết quả nếu quá trình cào dữ liệu chưa kết thúc không?
Không, khi chưa kết thúc cào dữ liệu, bạn không thể tải xuống kết quả. Nhưng bạn có thể sao chép nó từ thư mục aparser/results khi tác vụ bị dừng hoặc tạm dừng.
4.9. Có thể sử dụng công cụ cào dữ liệu của bạn để cào 1.000.000 liên kết theo một truy vấn không?
Có, sử dụng tùy chọn Cào tất cả kết quả / Parse all results.
4.10. Có thể cào dữ liệu
Rank::CMS,
Net::Whois mà không cần proxy không?
Rank::CMS - có thể, và thậm chí là nên làm vậy.
Net::Whois - không nên.4.11. Làm thế nào để cào các liên kết từ Google?
Cần sử dụng
SE::Google.
4.12. Công cụ cào dữ liệu có thể đi theo các liên kết không?
Có, công cụ cào dữ liệu
HTML::LinkExtractor có thể làm điều này khi sử dụng tùy chọn Cào đến cấp độ / Parse to level
4.13. Google cào dữ liệu rất chậm, phải làm gì?
Việc đầu tiên cần làm là xem nhật ký (log) của tác vụ, có thể tất cả các truy vấn đều thất bại. Nếu đúng như vậy, cần tìm nguyên nhân tại sao các truy vấn thất bại và khắc phục. Khi cào dữ liệu với
SE::Google, trong nhật ký tác vụ thường có các lần thử thất bại do Google hiển thị captcha, điều này là bình thường. Bạn có thể kết nối Antigate để vượt qua captcha, để công cụ cào dữ liệu không phải thử lại nhiều lần.
Ngoài ra, có một bài viết mô tả các yếu tố ảnh hưởng đến tốc độ cào dữ liệu và cách chúng ảnh hưởng: tốc độ và nguyên lý hoạt động của các công cụ cào dữ liệu.
4.14. Có thể sử dụng công cụ cào dữ liệu của bạn để cào các liên kết mà văn bản chỉ bằng tiếng Nhật không?
Có, để làm điều này, bạn cần thiết lập ngôn ngữ cần thiết trong cài đặt công cụ cào dữ liệu, cũng như sử dụng các từ khóa tiếng Nhật.
4.15. Có thể sử dụng công cụ cào dữ liệu của bạn để cào các liên kết chỉ trong vùng tên miền .de hoặc .ru không?
Có. Để làm điều này, bạn cần sử dụng bộ lọc.
4.16. Làm thế nào để nhận mỗi kết quả trong tệp trên một dòng mới?
Khi định dạng kết quả, hãy sử dụng \n. Ví dụ:
$serp.format('$link\n')
4.17. Làm thế nào để cào top 10 trang web từ Google?
Đây là preset:
eyJwcmVzZXQiOiJUT1AxMCIsInZhbHVlIjp7InByZXNldCI6IlRPUDEwIiwicGFy
c2VycyI6W1siU0U6Okdvb2dsZSIsImRlZmF1bHQiLHsidHlwZSI6Im92ZXJyaWRl
IiwiaWQiOiJwYWdlY291bnQiLCJ2YWx1ZSI6MX0seyJ0eXBlIjoib3ZlcnJpZGUi
LCJpZCI6ImxpbmtzcGVycGFnZSIsInZhbHVlIjoxMH0seyJ0eXBlIjoib3ZlcnJp
ZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfV1dLCJyZXN1bHRzRm9y
bWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0
c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9uYWxG
b3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQiOlsi
JHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmll
cyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2Us
InF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNPcHRp
b25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1
ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIs
InJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1
aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19
4.18. Thêm tác vụ, chuyển sang tab Hàng đợi tác vụ - mà nó không có ở đó! Tại sao?
Hoặc là đã xảy ra lỗi khi thiết lập tác vụ, hoặc nó đã được thực hiện xong và chuyển sang mục Completed (Đã hoàn thành).
4.19. Báo rằng tệp không phải định dạng utf-8, nhưng tôi không thay đổi nó, nó vốn là utf-8, phải làm gì?
Hãy kiểm tra lại một lần nữa. Ngoài ra, hãy thử thay đổi bảng mã, ví dụ bằng cách sử dụng Notepad++.
4.20. Trong tệp kết quả tất cả nằm trên một dòng, mặc dù trong tác vụ đã đặt xuống dòng - tại sao?
Trong cài đặt bổ sung của A-Parser, cần sử dụng xuống dòng kiểu CRLF (Windows).
Nhưng nếu bạn đã cào dữ liệu mà không có tùy chọn này, hãy sử dụng trình xem nâng cao hơn để xem, ví dụ như Notepad++.
4.21. Mất bao nhiêu thời gian để kiểm tra tần suất truy vấn trên Yandex cho 1.000 truy vấn?
Chỉ số này phụ thuộc rất nhiều vào các tham số của tác vụ, đặc điểm của máy chủ, chất lượng proxy, v.v., vì vậy không thể đưa ra câu trả lời duy nhất.
4.22. Làm thế nào để tôi thiết lập công cụ cào dữ liệu để kết quả là truy vấn-liên kết?
Định dạng kết quả:
$p1.serp.format('$query: $link\n')
Kết quả sẽ là:
truy vấn: liên kết 1
truy vấn: liên kết 2
truy vấn: liên kết 3
4.23. Làm thế nào để tôi cào lại các truy vấn thất bại và chúng được lưu trữ ở đâu?
Để lưu các truy vấn thất bại, bạn nên chọn tùy chọn tương ứng trong khối Queries (Truy vấn) trong Trình chỉnh sửa tác vụ. Các truy vấn thất bại được lưu trong queries\failed. Bạn cần tạo một tác vụ mới và chỉ định tệp chứa các truy vấn thất bại làm tệp truy vấn.
4.24. Làm thế nào để loại bỏ các thẻ HTML khi cào văn bản?
Sử dụng tùy chọn Remove HTML tags trong Trình tạo kết quả.
4.25. Làm thế nào để chỉ cào các tên miền?
Sử dụng tùy chọn Extract Domain trong Trình tạo kết quả.
4.26. Kích thước tệp truy vấn tối đa có thể sử dụng trong công cụ cào dữ liệu là bao nhiêu?
Kích thước của các tệp truy vấn và kết quả không bị giới hạn và có thể đạt tới giá trị hàng terabyte.
4.27. Tại sao khi tôi nhập văn bản vào trường truy vấn, công cụ cào dữ liệu báo Queries length limited to 8192 characters?
Điều này xảy ra vì độ dài của truy vấn bị giới hạn ở 8192 ký tự. Để sử dụng các truy vấn dài hơn, hãy sử dụng các tệp làm truy vấn.
4.28. Đang chờ luồng - 3 có nghĩa là gì?
Điều này có nghĩa là thiếu proxy. Hãy giảm số lượng luồng hoặc tăng số lượng proxy.
4.29. Trong cào dữ liệu thử nghiệm báo 596 SOCKS proxy error: Hello read error(Connection reset by peer) (0 KB) và không cào được, tại sao?
Điều này cho thấy proxy không hoạt động.
4.30. Sự khác biệt giữa ngôn ngữ kết quả và quốc gia tìm kiếm trong công cụ cào dữ liệu Google là gì?
Sự khác biệt như sau: quốc gia tìm kiếm là việc gắn kết kết quả với một quốc gia cụ thể. Ví dụ, nếu bạn tìm kiếm mua cửa sổ với ràng buộc theo một quốc gia cụ thể, thì các trang web cung cấp dịch vụ mua cửa sổ ngay tại quốc gia đó sẽ được ưu tiên. Còn ngôn ngữ của kết quả là ngôn ngữ mà kết quả phải được trả về.
4.31. Tôi không cào được một trang web nhất định. Có thể là do vấn đề gì?
Thường thì vấn đề là do bị chặn bởi user-agent cũ ở phía máy chủ. Được giải quyết bằng user-agent mới hoặc mã sau trong tham số User agent:
[% tools.ua.random() %]
4.32. Công cụ cào dữ liệu bị treo, bị văng. Trong nhật ký xuất hiện dòng syswrite: No space left on device
A-Parser không đủ dung lượng ổ cứng. Hãy giải phóng thêm dung lượng.
4.33. Công cụ cào dữ liệu của tôi bắt đầu trả về none trong kết quả (hoặc kết quả rõ ràng là sai)
4.34. Liên tục xuất hiện cửa sổ với dòng chữ Failed fetch news
4.35. Làm thế nào để xuất n kết quả đầu tiên của kết quả tìm kiếm?
4.36. Làm thế nào để theo dõi chuỗi chuyển hướng?
4.37. Làm thế nào để kiểm tra tính lập chỉ mục của liên kết trên trang nguồn?
Cho các mục đích như vậy, có một công cụ cào dữ liệu riêng biệt:
Check::BackLink.
Chi tiết hơn trong thảo luận.
4.38. Công cụ cào dữ liệu bị văng trên Linux. Trong nhật ký có ghi chép sau: EV: error in callback (ignoring): syswrite() on closed filehandle at AnyEvent/Handle.pm line...
Rất có thể cần tinh chỉnh số lượng luồng, như đã viết trong Tài liệu: Tinh chỉnh Linux cho số lượng luồng lớn hơn.
4.39. Có thể xem tất cả các tham số có thể có để sử dụng chúng qua API ở đâu?
Lấy yêu cầu API trong giao diện.
Ngoài ra, bạn có thể tạo cấu hình đầy đủ của tác vụ dưới dạng JSON. Để làm điều này, bạn cần lấy mã tác vụ và giải mã nó từ base64.
4.40. Tôi tải ảnh bằng
Net::HTTP, nhưng tại sao tất cả chúng đều bị lỗi. Phải làm sao?
1) Kiểm tra tham số Max body size - có thể cần phải tăng nó lên. 2) Kiểm tra định dạng xuống dòng trong cài đặt A-Parser: Cài đặt bổ sung - Xuống dòng.
Để hình ảnh không bị lỗi, phải sử dụng định dạng UNIX.
4.41. Làm thế nào để lấy admin contact từ WHOIS?
Tác vụ như vậy có thể dễ dàng giải quyết bằng chức năng Parse custom result và biểu thức chính quy. Chi tiết trong thảo luận.
4.42. Biểu thức chính quy để cào số điện thoại
4.43. Xác định các trang web không có phiên bản di động
4.44. Làm thế nào để biết tên máy chủ ns?
4.45. Làm thế nào để cào các liên kết đến bộ nhớ đệm của Yandex?
4.46. Làm thế nào để cào liên kết đến tất cả các trang của website?
4.47. Làm thế nào để cào title từ trang web?
4.48. Làm thế nào để cào tất cả các trang web trong một vùng tên miền nhất định?
4.49. Làm thế nào để thu thập tất cả url có tham số?
4.50. Làm thế nào để lọc kết quả theo nhiều tiêu chí và phân chia chúng trong báo cáo?
4.51. Làm thế nào để đơn giản hóa cấu trúc bộ lọc?
4.52. Làm thế nào để sắp xếp theo tệp tùy thuộc vào kết quả?
4.53. Tạo thư mục kết quả mới sau mỗi X số lượng tệp
4.54. Những bước đầu tiên làm việc với WordStat
4.55. Thu thập các khối văn bản >1000 ký tự
4.56. Xuất một lượng văn bản nhất định từ trang web
Điều này cũng được giải quyết bằng Template Toolkit. Chi tiết hơn trong thảo luận.
4.57. Kiểm tra cạnh tranh và sự xuất hiện trong tiêu đề trên Google
4.58. Lọc theo số lượng xuất hiện của truy vấn trong anchor và snippet
4.59. Làm thế nào để lấy nội dung bài viết thành một dòng?
4.60. Làm thế nào để so sánh hai ngày dạng chuỗi?
4.61. Làm thế nào để cào các từ được làm nổi bật từ snippet?
4.62. Ví dụ về tác vụ sử dụng nhiều công cụ cào dữ liệu
4.63. Làm thế nào để xáo trộn các dòng trong kết quả và cách xuất số lượng kết quả ngẫu nhiên?
4.64. Làm thế nào để ký kết quả bằng MD5?
4.65. Làm thế nào để chuyển đổi ngày từ Unix timestamp sang dạng chuỗi?
4.66. Parse to level, làm thế nào để cào dữ liệu với giới hạn?
4.67. Công cụ cào dữ liệu bị sập trên Linux khi khởi chạy tác vụ. Trong nhật ký có các dòng sau: Can't call method "if_list" on an undefined value at IO/Interface/Simple.pm...
Cần thực hiện lệnh sau trong bảng điều khiển (console):
apt-get --reinstall --purge install netbase
4.68. Lỗi Cannot init Parser: Error: Failed to launch the browser process! [0429/082706.472999:ERROR:zygote_host_impl_linux.cc(90)] Running as root without --no-sandbox is not supported...
Cần chạy A-Parser không phải bằng quyền root. Cụ thể: từ người dùng root cần tạo một người dùng mới không có quyền root (nếu đã có thì chỉ cần sử dụng nó) và sau đó cho phép người dùng này tương tác với thư mục của A-Parser, sau đó cần đăng nhập bằng người dùng mới và chạy từ đó.
Dưới người dùng root, tạo một người dùng mới, có thể theo hướng dẫn này.
Để cho phép người dùng đã tạo tương tác với thư mục của A-Parser, cần cấp quyền cho người dùng đó. Để làm điều này, hãy đăng nhập bằng người dùng root và cấp quyền bằng lệnh:
chown -R user:user aparser
4.69. Lỗi Cannot init Parser: Error: Failed to launch the browser process! [0429/102002.619437:FATAL:zygote_host_impl_linux.cc(117)] No usable sandbox! Update your kernel or see...
Dưới người dùng root, thực hiện lệnh:
sysctl -w kernel.unprivileged_userns_clone=1
Không cần khởi động lại A-Parser.
Đối với CentOS 7, giải pháp nằm trong chủ đề này.
Dưới người dùng root, thực hiện lệnh:
echo "user.max_user_namespaces=15000" >> /etc/sysctl.conf
Sau đó khởi động lại sysctl bằng lệnh:
sysctl -p
4.70. Lỗi JavaScript execution error(): Error: Failed to launch the browser process! /aparser/dist/nodejs/node_modules/puppeteer/.local-chromium/linux-884014/chrome-linux/chrome: error while loading shared libraries: libatk-1.0.so.0: cannot open shared object file: No such file or directory...
Lỗi xảy ra do thiếu các thư viện trong hệ điều hành để Chrome hoạt động.
Danh sách các thư viện cần thiết để Chrome hoạt động có thể tìm thấy trong Chrome headless doesn't launch on UNIX.
4.71. Tại sao captcha không được giải? Trong nhật ký thấy rằng từ xevil A-Parser nhận được các dấu hỏi thay vì câu trả lời captcha
Trong cài đặt vùng, cần thay đổi sang tiếng Nga.
Chỉ cần thay đổi trong tab nâng cao. Điều này không ảnh hưởng đến việc giải captcha, nhưng trong chính Xrumer sẽ có vấn đề với bảng mã nếu thay đổi ở cả hai nơi.
