Chuyển đến nội dung chính

Cài đặt và cập nhật

Trước khi cài đặt

Trước khi cài đặt, bạn cần thực hiện các bước sau:

  1. Trong Khu vực Thành viên, hãy kiểm tra xem địa chỉ IP của bạn đã được đăng ký chính xác chưa (đối với người dùng có IP động, bạn cần thay đổi địa chỉ IP mỗi khi có IP mới)

    Cài đặt IP
  2. Chuyển đến tab A-Parser -> Downloads

  3. Trước khi tải xuống phiên bản cần thiết, bạn nên nhấn Update trước để cập nhật lên phiên bản A-Parser mới nhất

    Cập nhật phiên bản

A-Parser Release - phiên bản A-Parser ổn định, bạn có thể đọc thêm về việc phát hành các phiên bản mới trong phần Tin tức

A-Parser Beta - phiên bản A-Parser trung gian được cập nhật liên tục, bạn có thể đọc thêm về các thay đổi trên diễn đàn trong phần Next Release

Cài đặt A-Parser

⏩ Video A-Parser: cài đặt, khởi chạy và cập nhật

TODO: (tiếp theo) cập nhật video

Cài đặt trên Windows

Sau khi bạn hoàn thành giai đoạn Trước khi cài đặt, bạn cần tải xuống kho lưu trữ chương trình và giải nén vào thư mục mong muốn (có thể là bất kỳ thư mục nào, kể cả màn hình desktop)

Tải xuống kho lưu trữGiải nén kho lưu trữ

Vào thư mục aparser và chạy aparser.exe

Khởi chạy chương trình

Lần khởi chạy đầu tiên có thể mất nhiều thời gian, từ 30 giây đến vài phút. Sau khi cửa sổ máy chủ xuất hiện, hãy mở http://127.0.0.1:9091/ trong trình duyệt

Mật khẩu mặc định để trống. Chỉ cần nhấn nút Login, sau đó giao diện web của A-Parser sẽ xuất hiện

Khắc phục sự cố

Các chương trình không tương thích

Đã biết các vấn đề tương thích với các phần mềm diệt virus và chương trình sau:

  • Norton Internet Security - công cụ cào dữ liệu có thể hoạt động không ổn định
  • Emsisoft Anti-Malware - công cụ cào dữ liệu có thể hoạt động không ổn định
  • Guard Mail.ru - cần phải gỡ bỏ hoàn toàn khỏi hệ thống
  • HTTPDebugger - làm gián đoạn hoạt động của A-Parser sau 2 giờ kể từ khi khởi chạy
Tắt dịch vụ lập chỉ mục Windows (Windows Indexing Service)

Dịch vụ lập chỉ mục có thể chặn quyền truy cập vào các tệp trong quá trình A-Parser hoạt động. Nếu công cụ cào dữ liệu không khởi chạy hoặc bị treo trong quá trình làm việc, cần kiểm tra nhật ký của A-Parser để xem có các bản ghi sau không:

IO error: ... Append: cannot write
hoặc
sysopen: Permission denied

Để tắt dịch vụ lập chỉ mục, hãy thực hiện các bước sau:

  1. Mở Services Management: Start - Run hoặc tổ hợp phím Win + R, nhập services.msc
  2. Trong cửa sổ mở ra, chọn Windows Search, nhấn chuột phải và chọn Properties
  3. Trong cửa sổ thuộc tính, tại tab General, đổi Startup type thành Disabled và nhấn Apply
  4. Nếu sau đó nút Stop khả dụng - hãy nhấn nó để dừng dịch vụ
Dừng dịch vụ lập chỉ mục
Lỗi khi cập nhật bản phân phối

Trong một số trường hợp, Windows có thể chặn quyền truy cập vào các tệp phân phối của A-Parser, khi đó trong aparser.log sẽ có bản ghi sau:

remove_tree failed for dist\nodejs\node_modules\...

Để giải quyết vấn đề:

  • đảm bảo rằng không có tiến trình aparser.exe hoặc aparser-node.exe nào bị treo trong Task Manager
  • xóa thư mục dist trong thư mục A-Parser, nếu Windows báo lỗi khi xóa - hãy đổi tên thư mục dist thành dist_

Cài đặt trên MacOS

Hiện tại, việc cài đặt trên MacOS có thể thực hiện bằng cách sử dụng Docker

Mật khẩu mặc định để trống. Chỉ cần nhấn nút Login, sau đó giao diện web của A-Parser sẽ xuất hiện

cảnh báo

Trên MacOS với bộ vi xử lý Apple, cần bật tùy chọn sau trong Docker Desktop

Docker Desktop

Cài đặt trên Linux

Chúng tôi khuyên bạn nên sử dụng docker hoặc docker-compose để cài đặt A-Parser trên Linux, đối với cài đặt cổ điển hãy làm theo hướng dẫn này

ghi chú

A-Parser triển khai máy chủ web riêng của mình, vì vậy hãy chọn thư mục cài đặt không có quyền truy cập web công cộng

Để thuận tiện cho việc tải xuống từ máy chủ, các liên kết tạm thời đã được triển khai. Trong Khu vực Thành viên, bạn cần nhấn Get one-time link - qua liên kết nhận được, bạn có thể tải xuống bản phân phối một lần. Trong terminal, chuyển đến thư mục cài đặt (ví dụ ~/) và thực hiện các lệnh sau, sử dụng liên kết đã nhận:

wget https://a-parser.com/members/onetime/ce42f308eaa577b5/aparser-linux-x64.tar.gz
tar zxf aparser-linux-x64.tar.gz
rm -f aparser-linux-x64.tar.gz
cd aparser/
chmod +x aparser
./aparser

Lần khởi chạy đầu tiên có thể mất nhiều thời gian, từ 30 giây đến vài phút. Sau khi cửa sổ máy chủ xuất hiện, hãy mở http://127.0.0.1:9091/ trong trình duyệt, bạn cũng có thể truy cập A-Parser bằng địa chỉ IP công cộng của máy chủ

Mật khẩu mặc định để trống. Chỉ cần nhấn nút Login, sau đó giao diện web của A-Parser sẽ xuất hiện

cảnh báo

Lưu ý rằng theo mặc định, A-Parser có sẵn trên tất cả các giao diện. Chúng tôi khuyên bạn nên đặt mật khẩu mạnh và nếu cần, hãy giới hạn quyền truy cập bằng iptables

Khắc phục sự cố

Đôi khi máy chủ có thể thiếu một số thư viện, ví dụ:

./aparser
./aparser: error while loading shared libraries: libz.so.1: cannot open shared object file: No such file or directory

Cần cài đặt các thư viện còn thiếu:

yum -y install zlib

Và khởi chạy lại A-Parser:

./aparser

Nếu không có thông báo nào hiện ra - điều đó chứng tỏ A-Parser đã khởi chạy thành công. Bạn có thể kiểm tra bằng lệnh tail -f aparser.log

Nếu trong aparser.log chứa các dòng như sau:

./dist/nodejs/bin/aparser-node: /lib64/libc.so.6: version `GLIBC_2.25' not found (required by ./dist/nodejs/bin/aparser-node)
./dist/nodejs/bin/aparser-node: /lib64/libc.so.6: version `GLIBC_2.28' not found (required by ./dist/nodejs/bin/aparser-node)

thì điều này cho thấy bạn đang sử dụng phiên bản Linux cũ và trong trường hợp này, bạn nên cập nhật hệ điều hành hoặc sử dụng docker hoặc docker-compose

Tối ưu hóa Linux cho số lượng luồng lớn hơn

Theo mặc định, Linux giới hạn số lượng tệp và socket mở là 1024 cho mỗi người dùng, để tăng giới hạn hãy thực hiện các lệnh sau:

echo 'root soft nofile 10240' >> /etc/security/limits.conf
echo 'root hard nofile 10240' >> /etc/security/limits.conf

Nếu bạn chạy công cụ cào dữ liệu không phải dưới quyền root mà dưới một người dùng khác, hãy thay thế root bằng tên người dùng đó

Bạn cũng cần tăng kích thước bảng ip_conntrack:

sysctl -w net.ipv4.netfilter.ip_conntrack_max=262144
echo 'net.ipv4.netfilter.ip_conntrack_max=262144' >> /etc/sysctl.conf

Nếu không có tường lửa iptables, lệnh này sẽ báo lỗi - chỉ cần bỏ qua nó

Cần đăng nhập lại vào terminal (ssh), sau đó khởi động lại A-Parser. Để kiểm tra giới hạn hiện tại, hãy thực hiện:

ulimit -n

Trên một số hệ thống, cần thêm dòng sau vào tệp /etc/pam.d/common-session:

session required pam_limits.so

Cài đặt trên FreeBSD

Hiện tại, trình giả lập Linux cho FreeBSD không thể hoạt động ổn định với A-Parser

Cấu trúc tệp của chương trình đã cài đặt

Cấu trúc tệp của A-Parser

Cấu trúc thư mục làm việc của A-Parser:

TệpMô tả
configThư mục chứa các tệp cấu hình, khuyên dùng sao lưu trước khi cập nhật A-Parser
distThư mục chứa bản phân phối A-Parser, bao gồm NodeJS và các mô-đun bổ sung khác
files/proxyThư mục chứa cài đặt proxychecker
files/parsersThư mục chứa mã nguồn JavaScript của các công cụ cào dữ liệu đã được tạo hoặc nhập bởi người dùng
logsNhật ký thực hiện các tác vụ
queriesThư mục chứa các truy vấn cho công cụ cào dữ liệu
resultsThư mục chứa kết quả cào dữ liệu
tmpThư mục tạm thời
.htaccessTệp cấu hình của máy chủ web apache để bảo vệ thư mục làm việc khỏi truy cập web
aparser.exe hoặc aparserTệp thực thi của A-Parser
aparser.logNhật ký hoạt động của A-Parser, phương pháp chính để chẩn đoán trạng thái hiện tại và các lỗi có thể xảy ra
Cấu trúc thư mục config

Cấu trúc thư mục config:

TệpMô tả
tasksThư mục chứa các tệp tác vụ (đang chạy và đã hoàn thành)
uniqueThư mục chứa các tệp khử trùng lặp
config.dbTệp cấu hình chính, nơi lưu trữ các cài đặt và preset
queue.dbTệp chứa dữ liệu hàng đợi tác vụ
scheduler.dbTệp chứa dữ liệu các tác vụ đã lập lịch
config.txtBổ sung Tệp cấu hình
mẹo

Để hiển thị phần mở rộng tệp trong hệ điều hành Windows, hãy bật cài đặt sau:

Bật phần mở rộng tệp trong Windows

Cấu hình ban đầu

Cấu hình ban đầu

Khi bắt đầu làm việc với A-Parser, bạn cần cấu hình nó theo ý mình trong menu Settings -> Global Settings

  • Password - mật khẩu mặc định được để trống, bạn có thể tạo mật khẩu mới để đăng nhập vào hệ thống.
  • Language - khả năng chọn ngôn ngữ giao diện, tin tức và gợi ý - có sẵn tiếng Nga và tiếng Anh.
  • Check updates (Check for updates) và Updates channel (Update channel) - thông báo về việc phát hành các phiên bản mới của công cụ cào dữ liệu. Kênh cập nhật cho phép chọn giữa các phiên bản ổn định (stable), beta và alpha.

Cấu hình các tùy chọn khác được mô tả trong phần Cài đặt chung

Mật khẩu mặc định

Mật khẩu mặc định để trống. Chỉ cần nhấn nút Login, sau đó giao diện web của A-Parser sẽ xuất hiện. Để đặt lại mật khẩu, hãy xem bên dưới.

Đặt lại mật khẩu

Bạn có thể đặt lại mật khẩu truy cập vào công cụ cào dữ liệu bằng cách chạy nó từ dòng lệnh với tùy chọn -resetpassword

Đối với Windows:

aparser.exe -resetpassword

Đối với Linux:

./aparser -resetpassword

Mật khẩu sẽ được đặt lại thành trống, để đăng nhập vào A-Parser chỉ cần nhấn Login

Cập nhật A-Parser

Cập nhật qua giao diện

Chọn Kênh cập nhật trong Cài đặt chung:

Kênh cập nhật

Trong menu Tools, chuyển đến tab Update A-Parser:

Cập nhật A-Parser

Chọn các tệp để cập nhật, A-Parser sẽ được khởi động lại:

Các tệp để cập nhật
cảnh báo

Chú ý! Trừ khi có quy định khác, chỉ cần cập nhật tệp thực thi (aparser.exe hoặc aparser) là đủ

Cập nhật thủ công trên Windows

Trong trường hợp thông thường, chỉ cần thay thế tệp thực thi của công cụ cào dữ liệu.

  • Dừng A-Parser - nhấn Stop server
  • Tải xuống kho lưu trữ từ Khu vực Thành viên và ghi đè lên aparser.exe
  • Chạy aparser.exe

Cập nhật thủ công trên Linux

  • Dừng A-Parser - trong console thực hiện killall aparser
  • Tải xuống kho lưu trữ từ Khu vực Thành viên và ghi đè lên tệp aparser
  • Chạy aparser - trong console thực hiện ./aparser
wget https://a-parser.com/members/onetime/0d19621928c25a48/aparser.tar.gz
kill $(cat files/pid)
sleep 1
tar xzf aparser.tar.gz -O aparser/aparser > aparser
rm -f aparser.tar.gz
chmod +x aparser
./aparser

Cài đặt một giấy phép trên nhiều máy tính

Mỗi giấy phép chỉ có thể được sử dụng đồng thời trên một PC/máy chủ. Tuy nhiên, với một giấy phép, không cấm việc cài đặt A-Parser trên nhiều máy tính cùng lúc. Nhưng trong trường hợp này, A-Parser chỉ có thể được chạy trên PC/máy chủ có IP đã được đăng ký trong Khu vực Thành viên

Ví dụ về việc sử dụng như vậy có thể là PC làm việc và laptop cá nhân: công cụ cào dữ liệu có thể được cài đặt trên cả hai máy, và sử dụng trên PC làm việc hoặc trên laptop cá nhân. Số lần thay đổi IP trong Khu vực Thành viên là không giới hạn, nhưng không nên thực hiện quá 5 lần mỗi ngày, vì nếu không bạn có thể cần xác nhận rằng không có hành vi gian lận.

Để chạy A-Parser đồng thời trên nhiều máy tính hoặc máy chủ, hãy thực hiện các bước sau:

  1. Thêm Giấy phép bổ sung
  2. Trong Khu vực Thành viên, chuyển đến tab A-Parser -> IP Settings
  3. Nhập địa chỉ IP của các máy tính bổ sung

Cài đặt nhiều bản sao trên cùng một PC hoặc máy chủ

Mỗi giấy phép cho phép cài đặt và chạy đồng thời không giới hạn số lượng bản sao của A-Parser trong phạm vi một máy. Điều này cho phép tận dụng tối đa khả năng của các hệ thống mạnh mẽ, nơi một bản sao không sử dụng hết tài nguyên và cần tăng hiệu suất.

Quy trình cài đặt nhiều bản sao của công cụ cào dữ liệu trên một hệ thống:

  • cần tải xuống và cài đặt mỗi bản sao vào một thư mục riêng biệt theo hướng dẫn cài đặt tiêu chuẩn
  • trong mỗi bản sao của công cụ cào dữ liệu, cần tạo tệp config.txt trong thư mục config và ghi cấu hình dạng này:
bind: 0.0.0.0:9092
  • thay vì 9092, hãy chỉ định cổng mà bản sao này sẽ hoạt động

Sau đó, công cụ cào dữ liệu có thể được khởi chạy và nó sẽ khả dụng trên cổng đã chỉ định

cảnh báo

Bất kỳ hình thức chia sẻ quyền truy cập nào, cũng như việc cho thuê A-Parser đều bị cấm và trong trường hợp bị phát hiện, giấy phép sẽ bị hủy bỏ mà không được hoàn tiền hoặc có khả năng khôi phục.