Przejdź do treści głównej

Proxy checkery

W tej sekcji wyświetlane są statystyki pracy wszystkich proxycheckerów. Każdy proxychecker to stale działający moduł (jeśli jest włączony), który sprawdza proxy i tym samym posiada aktualną listę aktywnych proxy.

Można dodać nieograniczoną liczbę proxycheckerów i wybierać jeden lub kilka z nich dla każdego zadania lub nawet każdego scrapera w zadaniu. W ten sposób istnieje możliwość używania w ramach jednego zadania jednych proxy na przykład do scrapowania Google i zupełnie innych - dla Yandexa.

Przegląd Proxycheckera

Na górze wyświetlana jest całkowita liczba aktywnych proxy oraz liczba uruchomionych (działających) proxycheckerów. W prawym górnym rogu znajduje się przycisk dodawania nowego proxycheckera. Więcej o procedurze dodawania proxycheckerów opisano w sekcji Ustawienia proxy.

Poniżej znajduje się lista wszystkich istniejących proxycheckerów w formie kart z informacjami o każdym z nich. Na każdej karcie wyświetlane są następujące informacje:

  • Working path - folder z plikami proxycheckera w aparser/files/proxy
  • Update time - czas ostatniego sprawdzenia załadowanej listy proxy
  • Liczba proxy w kolejce sprawdzania i całkowita liczba załadowanych proxy
  • Liczba aktywnych proxy
  • Load state (Status ładowania) lub data następnego ładowania ze źródeł proxy
  • Liczba źródeł, z których ostatnio pomyślnie załadowano proxy oraz całkowita liczba źródeł w tym proxycheckerze
  • Bieżący status sprawdzania proxy

Checkbox Enabled obok przycisków sterowania proxycheckerami pozwala na włączanie/wyłączanie proxycheckera.

Pierwszym na liście proxycheckerów zawsze jest proxychecker default. Jest on szablonem dla nowych proxycheckerów i nie można go edytować ani usuwać.

Struktura plików

Pliki robocze proxycheckera znajdują się w folderze files/proxy/<nazwa proxycheckera>:

  • proxy.txt - z tego pliku następuje ładowanie proxy, tutaj należy umieścić listę proxy
  • sites.txt - w tym pliku należy umieścić listę źródeł proxy (linki do proxy, jeden link na wiersz)
  • alive.txt - w tym pliku co 5 sekund zapisywane są aktywne proxy, jeśli włączona jest odpowiednia opcja
  • regex.txt - w tym pliku znajduje się lista wyrażeń regularnych do scrapowania proxy z zewnętrznych źródeł (jedno wyrażenie regularne na wiersz, w $1 powinien być adres IP, w $2 - port)
notatka

Jeśli posiadasz linki do źródeł proxy - podaj je w pliku sites.txt, plik proxy.txt należy pozostawić pusty
Dla proxycheckera "default" pliki znajdują się w głównym katalogu files/proxy/

Dodawanie i konfiguracja proxycheckera

Wchodzimy do menu "Proxy Checker" i klikamy "Add checker" lub wybieramy w istniejącym proxycheckerze w menu rozwijanym "Edit". Trafiamy na stronę ustawień proxycheckera.

Dodawanie Proxycheckera

W razie potrzeby ustawiamy odpowiednią liczbę wątków do sprawdzania proxy (Wątki sprawdzania), wybieramy typ proxy (Typ proxy) i zmieniamy inne ustawienia. Domyślne wartości parametrów są odpowiednie dla większości zadań. Zapisujemy ustawienia jako nowy proxychecker. Nie można zmienić i zapisać ustawień proxycheckera default.

Źródła proxy podaje się w plikach wewnątrz folderu o nazwie utworzonego proxycheckera (files/proxy/.../):

  • linki w sites.txt
  • lista proxy w proxy.txt
Źródła proxy w katalogu roboczym

Proxy z dostępem po IP

Proxy z dostępem po IP konfiguruje się w podobny sposób.

Lista proxy z tym samym loginem i hasłem dla wszystkich proxy

Ta metoda jest odpowiednia w przypadkach, gdy lista proxy ma format ip:port, a login/hasło są takie same dla całej listy proxy

W ustawieniach checkera podajemy:

  • login
  • password
  • Użyj autoryzacji proxy
Konfiguracja: lista proxy z tym samym loginem i hasłem dla wszystkich proxy

Lista proxy z różnymi hasłami dla każdego proxy

W tym przypadku lista proxy powinna mieć format login:password@ip:port, w ustawieniach checkera wystarczy zaznaczyć Use proxy authorization (Użyj autoryzacji proxy)

Konfiguracja: lista proxy z różnymi hasłami dla każdego proxy

⏩ Wideo: podłączanie proxy z autoryzacją

Wybór proxycheckera dla zadania

notatka

Te ustawienia są niezbędne do rozgraniczenia pracy zadań z różnymi proxycheckerami, możesz pominąć tę sekcję, jeśli chcesz używać wszystkich dostępnych proxy we wszystkich zadaniach

Wchodzimy do menu Settings -> Config Presets, wybieramy odpowiedni preset lub tworzymy nowy (przycisk Save as New (Dodaj nowy)).

W polu Proxy Checkers (Proxycheckery) wybieramy jeden lub kilka proxycheckerów (aby ich użyć, proxycheckery muszą być włączone) i zapisujemy (Save (Zapisz)). Można również wybrać od razu wszystkie proxycheckery All (wartość domyślna).

Wybór proxycheckera dla zadania

Teraz można użyć utworzonej Konfiguracji wątków z określonymi proxy w swoich zadaniach, wybierając ją w Edytorze zadań.

Wybór konfiguracji wątków

Można również nadpisywać proxychecker w każdym scraperze za pomocą funkcji nadpisywania - Proxy Checker.

Nadpisywanie Proxycheckera

Opcja Exclude from "All" w ustawieniach proxycheckera pozwala wykluczyć jego proxy z ogólnego obiegu w A-Parser. Opcja ta jest przydatna w przypadkach, gdy konieczne jest udostępnienie określonych proxy tylko dla konkretnych zadań lub tylko dla konkretnych scraperów:

  • dla zadania należy wymusić wybór wykluczonego proxycheckera
  • dla konkretnego scrapera należy ustawić w ustawieniach użycie wykluczonego proxycheckera

Zmiany w logice

Wcześniej, jeśli w zadaniu wybrano konkretny proxychecker, a w scraperze wskazano inny proxychecker, scraper oczekiwał na proxy. Teraz ustawienia konkretnego scrapera mają wyższy priorytet:

  • "All" - używa wszystkich proxy wybranych dla zadania
  • konkretny proxychecker - używa go, nawet jeśli nie został wybrany w zadaniu

Parametry proxycheckerów

Nazwa parametruWartość domyślnaOpis
Loading typeReplaceOkreśla, czy zachowywać poprzednio załadowane proxy czy nie, Add - zawsze dodaje nowe proxy do ogólnej listy, Replace - zastępuje stare proxy nowo załadowanymi
Load threads count5Liczba wątków ładowania proxy ze stron
Load interval30Interwał między pełnym ponownym sprawdzeniem listy stron
Load timeout30Limit czasu na żądanie do strony z proxy
Load max size524288Maksymalny rozmiar strony z proxy, jeśli strona jest większa, zostaje przycięta do zadanej wielkości
Load limit count0Ograniczenie liczby ładowanych proxy, 0 aby wyłączyć
No check proxiesPozwala wyłączyć sprawdzanie proxy. Wszystkie załadowane proxy są automatycznie uznawane za aktywne
Proxies typeHTTP, SOCKS5Wybór typów proxy do sprawdzenia i ich kolejności; jeśli wskazano jednocześnie HTTP i SOCKS, to przy nieudanym sprawdzeniu na HTTP proxy zostanie ponownie sprawdzone pod kątem protokołu SOCKS
Check threads15Liczba wątków sprawdzania proxy
Check urlhttp://work.a-poster.info:25000/Link do skryptu sprawdzającego proxy, obecnie sprawdzanie odbywa się przez serwer scrapera, w przyszłości to zachowanie może ulec zmianie
Check interval30Interwał między pełnymi ponownymi sprawdzeniami wszystkich proxy
Check timeout5Limit czasu proxy
Check max size5120Maksymalny rozmiar pobieranej strony podczas sprawdzania proxy
Check anonymousSprawdzaj proxy pod kątem anonimowości; jeśli wybrano, należy koniecznie podać External IP
External IPZewnętrzny adres IP komputera\serwera, należy podać, jeśli włączona jest opcja Check anonymous
Exclude from "All"Domyślnie w każdym scraperze jako proxychecker wybrana jest wartość "All", czyli używane są wszystkie dostępne proxycheckery. Jeśli opcja jest włączona, proxychecker zostanie wykluczony z All.
Save alive proxies to fileNoZapisuj aktywne proxy do pliku files/proxy/alive.txt
Use proxy authorizationUżywaj autoryzacji dla proxy za pomocą loginu\hasła
Authorization loginLogin do autoryzacji
Authorization passwordHasło do autoryzacji

Instalacja skryptu sprawdzającego na hostingu

notatka

Domyślnie A-Parser sprawdza proxy przez własny skrypt sprawdzający, bez konieczności instalacji skryptu na własnym hostingu

Wgraj na swój hosting lub serwer następujący skrypt PHP i podaj link do niego w Check url:

<?php

print_r($_SERVER);
print_r($_POST);

?>