Proxy checkery
W tej sekcji wyświetlane są statystyki pracy wszystkich proxycheckerów. Każdy proxychecker to stale działający moduł (jeśli jest włączony), który sprawdza proxy i tym samym posiada aktualną listę aktywnych proxy.
Można dodać nieograniczoną liczbę proxycheckerów i wybierać jeden lub kilka z nich dla każdego zadania lub nawet każdego scrapera w zadaniu. W ten sposób istnieje możliwość używania w ramach jednego zadania jednych proxy na przykład do scrapowania Google i zupełnie innych - dla Yandexa.

Na górze wyświetlana jest całkowita liczba aktywnych proxy oraz liczba uruchomionych (działających) proxycheckerów. W prawym górnym rogu znajduje się przycisk dodawania nowego proxycheckera. Więcej o procedurze dodawania proxycheckerów opisano w sekcji Ustawienia proxy.
Poniżej znajduje się lista wszystkich istniejących proxycheckerów w formie kart z informacjami o każdym z nich. Na każdej karcie wyświetlane są następujące informacje:
- Working path - folder z plikami proxycheckera w
aparser/files/proxy - Update time - czas ostatniego sprawdzenia załadowanej listy proxy
- Liczba proxy w kolejce sprawdzania i całkowita liczba załadowanych proxy
- Liczba aktywnych proxy
- Load state (Status ładowania) lub data następnego ładowania ze źródeł proxy
- Liczba źródeł, z których ostatnio pomyślnie załadowano proxy oraz całkowita liczba źródeł w tym proxycheckerze
- Bieżący status sprawdzania proxy
Checkbox Enabled obok przycisków sterowania proxycheckerami pozwala na włączanie/wyłączanie proxycheckera.
Pierwszym na liście proxycheckerów zawsze jest proxychecker default. Jest on szablonem dla nowych proxycheckerów i nie można go edytować ani usuwać.
Struktura plików
Pliki robocze proxycheckera znajdują się w folderze files/proxy/<nazwa proxycheckera>:
proxy.txt- z tego pliku następuje ładowanie proxy, tutaj należy umieścić listę proxysites.txt- w tym pliku należy umieścić listę źródeł proxy (linki do proxy, jeden link na wiersz)alive.txt- w tym pliku co 5 sekund zapisywane są aktywne proxy, jeśli włączona jest odpowiednia opcjaregex.txt- w tym pliku znajduje się lista wyrażeń regularnych do scrapowania proxy z zewnętrznych źródeł (jedno wyrażenie regularne na wiersz, w $1 powinien być adres IP, w $2 - port)
Jeśli posiadasz linki do źródeł proxy - podaj je w pliku sites.txt, plik proxy.txt należy pozostawić pusty
Dla proxycheckera "default" pliki znajdują się w głównym katalogu files/proxy/
Dodawanie i konfiguracja proxycheckera
Wchodzimy do menu "Proxy Checker" i klikamy "Add checker" lub wybieramy w istniejącym proxycheckerze w menu rozwijanym "Edit". Trafiamy na stronę ustawień proxycheckera.

W razie potrzeby ustawiamy odpowiednią liczbę wątków do sprawdzania proxy (Wątki sprawdzania), wybieramy typ proxy (Typ proxy) i zmieniamy inne ustawienia. Domyślne wartości parametrów są odpowiednie dla większości zadań. Zapisujemy ustawienia jako nowy proxychecker. Nie można zmienić i zapisać ustawień proxycheckera default.
Źródła proxy podaje się w plikach wewnątrz folderu o nazwie utworzonego proxycheckera (files/proxy/.../):
- linki w sites.txt
- lista proxy w proxy.txt

Proxy z dostępem po IP
Proxy z dostępem po IP konfiguruje się w podobny sposób.
Lista proxy z tym samym loginem i hasłem dla wszystkich proxy
Ta metoda jest odpowiednia w przypadkach, gdy lista proxy ma format ip:port, a login/hasło są takie same dla całej listy proxy
W ustawieniach checkera podajemy:
- login
- password
- Użyj autoryzacji proxy

Lista proxy z różnymi hasłami dla każdego proxy
W tym przypadku lista proxy powinna mieć format login:password@ip:port, w ustawieniach checkera wystarczy zaznaczyć Use proxy authorization (Użyj autoryzacji proxy)

⏩ Wideo: podłączanie proxy z autoryzacją
Wybór proxycheckera dla zadania
Te ustawienia są niezbędne do rozgraniczenia pracy zadań z różnymi proxycheckerami, możesz pominąć tę sekcję, jeśli chcesz używać wszystkich dostępnych proxy we wszystkich zadaniach
Wchodzimy do menu Settings -> Config Presets, wybieramy odpowiedni preset lub tworzymy nowy (przycisk Save as New (Dodaj nowy)).
W polu Proxy Checkers (Proxycheckery) wybieramy jeden lub kilka proxycheckerów (aby ich użyć, proxycheckery muszą być włączone) i zapisujemy (Save (Zapisz)). Można również wybrać od razu wszystkie proxycheckery All (wartość domyślna).

Teraz można użyć utworzonej Konfiguracji wątków z określonymi proxy w swoich zadaniach, wybierając ją w Edytorze zadań.

Można również nadpisywać proxychecker w każdym scraperze za pomocą funkcji nadpisywania - Proxy Checker.

Opcja Exclude from "All" w ustawieniach proxycheckera pozwala wykluczyć jego proxy z ogólnego obiegu w A-Parser. Opcja ta jest przydatna w przypadkach, gdy konieczne jest udostępnienie określonych proxy tylko dla konkretnych zadań lub tylko dla konkretnych scraperów:
- dla zadania należy wymusić wybór wykluczonego proxycheckera
- dla konkretnego scrapera należy ustawić w ustawieniach użycie wykluczonego proxycheckera
Zmiany w logice
Wcześniej, jeśli w zadaniu wybrano konkretny proxychecker, a w scraperze wskazano inny proxychecker, scraper oczekiwał na proxy. Teraz ustawienia konkretnego scrapera mają wyższy priorytet:
- "All" - używa wszystkich proxy wybranych dla zadania
- konkretny proxychecker - używa go, nawet jeśli nie został wybrany w zadaniu
Parametry proxycheckerów
| Nazwa parametru | Wartość domyślna | Opis |
|---|---|---|
| Loading type | Replace | Określa, czy zachowywać poprzednio załadowane proxy czy nie, Add - zawsze dodaje nowe proxy do ogólnej listy, Replace - zastępuje stare proxy nowo załadowanymi |
| Load threads count | 5 | Liczba wątków ładowania proxy ze stron |
| Load interval | 30 | Interwał między pełnym ponownym sprawdzeniem listy stron |
| Load timeout | 30 | Limit czasu na żądanie do strony z proxy |
| Load max size | 524288 | Maksymalny rozmiar strony z proxy, jeśli strona jest większa, zostaje przycięta do zadanej wielkości |
| Load limit count | 0 | Ograniczenie liczby ładowanych proxy, 0 aby wyłączyć |
| No check proxies | ☐ | Pozwala wyłączyć sprawdzanie proxy. Wszystkie załadowane proxy są automatycznie uznawane za aktywne |
| Proxies type | HTTP, SOCKS5 | Wybór typów proxy do sprawdzenia i ich kolejności; jeśli wskazano jednocześnie HTTP i SOCKS, to przy nieudanym sprawdzeniu na HTTP proxy zostanie ponownie sprawdzone pod kątem protokołu SOCKS |
| Check threads | 15 | Liczba wątków sprawdzania proxy |
| Check url | http://work.a-poster.info:25000/ | Link do skryptu sprawdzającego proxy, obecnie sprawdzanie odbywa się przez serwer scrapera, w przyszłości to zachowanie może ulec zmianie |
| Check interval | 30 | Interwał między pełnymi ponownymi sprawdzeniami wszystkich proxy |
| Check timeout | 5 | Limit czasu proxy |
| Check max size | 5120 | Maksymalny rozmiar pobieranej strony podczas sprawdzania proxy |
| Check anonymous | ☐ | Sprawdzaj proxy pod kątem anonimowości; jeśli wybrano, należy koniecznie podać External IP |
| External IP | Zewnętrzny adres IP komputera\serwera, należy podać, jeśli włączona jest opcja Check anonymous | |
| Exclude from "All" | ☐ | Domyślnie w każdym scraperze jako proxychecker wybrana jest wartość "All", czyli używane są wszystkie dostępne proxycheckery. Jeśli opcja jest włączona, proxychecker zostanie wykluczony z All. |
| Save alive proxies to file | No | Zapisuj aktywne proxy do pliku files/proxy/alive.txt |
| Use proxy authorization | ☐ | Używaj autoryzacji dla proxy za pomocą loginu\hasła |
| Authorization login | Login do autoryzacji | |
| Authorization password | Hasło do autoryzacji |
Instalacja skryptu sprawdzającego na hostingu
Domyślnie A-Parser sprawdza proxy przez własny skrypt sprawdzający, bez konieczności instalacji skryptu na własnym hostingu
Wgraj na swój hosting lub serwer następujący skrypt PHP i podaj link do niego w Check url:
<?php
print_r($_SERVER);
print_r($_POST);
?>