Проксичекеры
В этом разделе отображается статистика работы всех проксичекеров. Каждый проксичекер - это постоянно работающий модуль (если он включен), который проверяет прокси и тем самым имеет актуальный список живых проксей.
Можно добавить неограниченное количество проксичекеров и выбирать один или несколько из них для каждого задания или даже каждого парсера в задании. Таким образом есть возможность использовать в рамках одного задания одни прокси например для парсинга Google и совсем другие - для Яндекса.
Сверху отображается общее количество живых прокси и количество запущенных (работающих) проксичекеров. Справа вверху кнопка добавления нового проксичекера. Подробнее о процедуре добавления проксичекеров описано в разделе Настройка прокси.
Ниже содержится список всех существующих проксичекеров в виде карточек с информацией о каждом проксичекере. На каждой карточке отображается следующая информация:
- Рабочий каталог - папка с файлами проксичекера в
aparser/files/proxy
- Время обновления - время последней проверки загруженного списка прокси
- Количество прокси в очереди проверки и общее количество загруженных прокси
- Количество живых прокси
- Статус загрузки либо дата следующей загрузки из источников прокси
- Количество источников, из которых последний раз успешно были загружены прокси и общее количество источников в этом проксичекере
- Текущий статус проверки прокси
Чекбокс Включен
возле кнопок управления проксичекеров позволяет включать/выключать проксичекер.
Первым в списке проксичекеров всегда идет проксичекер default
. Он является шаблоном для новых проксичекеров и его нельзя отредактировать или удалить.
Файловая структура
Рабочие файлы проксичекера находятся в папке files/proxy/<название проксичекера>
:
proxy.txt
- из этого файла происходит загрузка проксей, сюда необходимо положить список проксиsites.txt
- в этот файл необходимо положить список источников проксей (ссылки на прокси, в формате одна ссылка на строку)alive.txt
- в этот файл каждые 5 секунд сохраняются живые прокси если включена соответствующая опцияregex.txt
- в этом файле находится список регулярных выражений для парсинга проксей с внешних источников (в формате одно регулярное выражение на строку, в $1 должен быть IP адрес, в $2 - порт)
Если у вас есть ссылки на источники прокси - укажите их в файле sites.txt, файл proxy.txt необходимо оставить пустым
Для "default" проксичекера файлы находятся в корне каталога files/proxy/
Добавление и настройка проксичекера
Заходим в меню "Проксичекер" и нажимаем "Добавить чекер" или выбираем в существующем проксичекере в выпадающем меню "Редактировать". Попадаем на страницу настройки проксичекера.
При необходимости выставляем необходимое количество потоков для проверки проксей (Потоков проверки), выбираем тип прокси (Тип прокси) и меняем другие настройки. Значения параметров по умолчанию подходят для большинства задач. Сохраняем настройки как новый проксичекер. Изменить и сохранить настройки default проксичекера нельзя.
Источники прокси указываются в файлах внутри папки с именем созданного проксичекера (files/proxy/.../):
- ссылки в sites.txt
- список прокси в proxy.txt
Прокси с IP доступом
Прокси с доступом по IP настраиваются похожим образом.
Список прокси с одинаковым логин паролем для всех прокси
Данный способ подходит для случаев когда список прокси имеет формат ip:port
и логин/пароль одинаковый для всего списка прокси
В настройках чекера указываем:
- login
- password
- Использовать авторизацию прокси
Список прокси с разными паролями для каждой прокси
В этом случае список прокси должен иметь формат login:password@ip:port
, в настройках чекера достаточно указать Использовать авторизацию прокси
⏩ Видео: подключение прокси с авторизацией
Выбор проксичекера для задания
Данные настройки необходимы для разграничения работы заданий с различными проксичекерами, вы можете пропустить этот раздел если необходимо использовать все доступные прокси во всех заданиях
Заходим в меню Настройки -> Настройки потоков, выбираем нужный пресет или создаем новый (кнопка Добавить новый).
В поле Проксичекеры выбираем один или несколько проксичекеров (для использования проксичекеры должны быть включены) и сохраняем (Сохранить). Так же можно выбрать сразу все проксичекеры All (значение по умолчанию).
Теперь можно использовать созданный Конфиг потоков, с заданными прокси в своих задачах, выбрав его в Редакторе заданий.
Также можно переопределять проксичекер в каждом парсере с помощью функции переопределения - Proxy Checker.
Опция Exclude from "All" в настройках проксичекера позволяет исключить его прокси из общего обращения в A-Parser. Данная опция полезна в тех случаях, когда необходимо сделать определенные прокси доступными только из конкретных заданий или только для конкретных парсеров:
- для задания необходимо принудительно выбрать исключенный проксичекер
- для конкретного парсера необходимо выставить в настройках использование исключенного проксичекера
Изменения в логике
Ранее, если в задании был выбран конкретный проксичекер, а в парсере указан другой проксичекер, парсер ожидал прокси. Теперь настройки конкретного парсера являются более приоритетными:
- "All" - использует все прокси выбранные для задания
- конкретный проксичекер - использует его, даже если он не выбран в задании
Параметры проксичекеров
Название параметра | Значение по умолчанию | Описание |
---|---|---|
Loading type | Replace | Определяет сохранять ли предыдущие загруженные прокси или нет, Add - всегда добавляет новые прокси в общий список, Replace - замещает старые прокси новыми загруженными |
Load threads count | 5 | Количество потоков загрузки проксей с сайтов |
Load interval | 30 | Интервал между полной перепроверкой списка сайтов |
Load timeout | 30 | Таймаут на запрос к сайту с проксями |
Load max size | 524288 | Максимальный размер страницы с проксями, если страница больше то она обрезается до заданного размера |
Load limit count | 0 | Ограничение количества загружаемых прокси, 0 для отключения |
No check proxies | ☐ | Позволяет отключить проверку проксей. Все загруженные прокси автоматически считаются живыми |
Proxies type | HTTP, SOCKS5 | Выбор какие типы проксей проверять и в какой последовательности, если указано одновременно HTTP и SOCKS то при неудачной проверки на HTTP прокси будет повторно проверена на протокол SOCKS |
Check threads | 15 | Количество потоков проверки проксей |
Check url | http://work.a-poster.info:25000/ | Ссылка на скрипт проверки проксей, на данный момент проверка осуществляется через сервер парсера, в будущем это поведение может измениться |
Check interval | 30 | Интервал между полными перепроверками всех проксей |
Check timeout | 5 | Таймаут прокси |
Check max size | 5120 | Максимальный размер скачиваемой страницы при проверке прокси |
Check anonymous | ☐ | Проверять прокси на анонимность, если выбрано то необходимо обязательно указать External IP |
External IP | Внешний ip адрес компьютера\сервера, необходимо указывать если включена опция Check anonymous | |
Exclude from "All" | ☐ | По умолчанию в каждом парсере в качестве проксичекера выбрано значение "All", т.е. используются все доступные проксичекеры. Если опция включена, проксичекер будет исключен из All. |
Save alive proxies to file | No | Сохранять живые прокси в файл files/proxy/alive.txt |
Use proxy authorization | ☐ | Использовать авторизацию для проксей по логин\паролю |
Authorization login | Логин для авторизации | |
Authorization password | Пароль для авторизации |
Установка скрипта проверки на хостинг
По умолчанию A-Parser проверяет прокси через свой скрипт проверки, без необходимости установки скрипта на свой хостинг
Загрузите на ваш хостинг или сервер следующий PHP скрипт и укажите ссылку на него в Check url:
<?php
print_r($_SERVER);
print_r($_POST);
?>