Настройка прокси
Качественная работа A-Parser в большинстве случаев опирается на работу с прокси, поэтому A-Parser имеет первоклассную поддержку прокси самых различных вариантов и конфигураций, а также поддерживает одновременную работу с несколькими разными источниками прокси, как в одном задании, так и разделяя по типу между разными заданиями.
Основные возможности A-Parser по работе с прокси:
- Одновременная поддержка HTTP, SOCKS4 и SOCKS5 проксей
- Многопоточная проверка прокси
- Загрузка проксей из локального файла
- Многопоточная загрузка с внешних источников
- Проверка на анонимность
- Поддержка авторизации по логин\паролю как для HTTP так и для SOCKS5 прокси, а так же поддержка различных данных для авторизации в формате
login:[email protected]:port
- Возможность задать произвольные регулярные выражения для IP-адреса и порта прокси при парсинге с внешних источников
- Возможность выгрузки проверенных проксей в файл
- Возможность использовать несколько источников прокси в одном задании
- Поддержка доменных прокси в форматах
domain:рort
иlogin:р[email protected]:рort
Файловая структура
Рабочие файлы проксичекера находятся в папке files/proxy/<название проксичекера>
:
proxy.txt
- из этого файла происходит загрузка проксей, сюда необходимо положить список проксиsites.txt
- в этот файл необходимо положить список источников проксей (ссылки на прокси, в формате одна ссылка на строку)alive.txt
- в этот файл каждые 5 секунд сохраняются живые прокси если включена соответствующая опцияregex.txt
- в этом файле находится список регулярных выражений для парсинга проксей с внешних источников (в формате одно регулярное выражение на строку, в $1 должен быть IP адрес, в $2 - порт)
Если у вас есть ссылки на источники прокси - укажите их в файле sites.txt, файл proxy.txt необходимо оставить пустым
Для "default" проксичекера файлы находятся в корне каталога files/proxy/
Управление
Управление прокси чекерами осуществляется во вкладке Проксичекер, там можно добавлять, удалять, а также включать и отключать прокси чекеры. Так же в этой вкладке отображается статистика работы каждого прокси чекера, график живых прокси и статистика по обработке источников:
Добавление и настройка проксичекера
Заходим в меню "Проксичекер" и нажимаем "Добавить чекер" или выбираем в существующем проксичекере в выпадающем меню "Редактировать". Попадаем на страницу настройки проксичекера.
При необходимости выставляем необходимое количество потоков для проверки проксей (Потоков проверки), выбираем тип прокси (Тип прокси) и меняем другие настройки. Значения параметров по-умолчанию подходят для большинства задач. Сохраняем настройки как новый проксичекер. Изменить и сохранить настройки default проксичекера нельзя.
Источники прокси указываются в файлах внутри папки с именем созданного проксичекера (files/proxy/.../):
- ссылки в sites.txt
- список прокси в proxy.txt
Настройка прокси из Личного кабинета
Чтобы использовать прокси от A-Parser, необходимо зайти в Личный кабинет, во вкладку Прокси, нажать кнопку Использовать IP и кнопку Сохранить.
При использовании прокси от А-Парсера достаточно отключить проверку прокси (Не проверять прокси - поставить галочку), остальные настройки можно оставить по-умолчанию. Сохраняем пресет (для уже существующих нажать Сохранить, для новых - Добавить новый).
Возвращаемся в меню "Проксичекер", проверяем, включен ли только что созданный чекер, если нет, то включаем.
Открываем каталог проксичекера, указанный в поле "Рабочий каталог".
Из Личного кабинета копируем 1 ссылку на список прокси и указываем ее в sites.txt созданного проксичекера.
- http://work.a-poster.info/prx/perm_socks.txt - На каждом порту своя прокси со своим выходным IP адресом. Прокси зафиксирована за своим портом пока находится онлайн. Данный список обновляется каждые 30 секунд и всегда содержит актуальные и живые прокси. Рекомендуется для большинства задач.
- http://work.a-poster.info/prx/rand_socks.txt - Выходной IP адрес меняется для каждого подключения к прокси. IP адрес выбирается случайным образом из всех живых прокси. Данный список фиксированный и необходимости обновлять его нет
Возвращаемся в А-Парсер, в меню "Проксичкер". В поле "Всего живых" данного проксичекера должно быть больше 0 - значит прокси настроены правильно.
⏩ Видео: настройка, добавление прокси, запуск задания
Использование прокси с авторизацией
Список прокси с одинаковым логин паролем для всех прокси
Данный способ подходит для случаев когда список прокси имеет формат ip:port
и логин/пароль одинаковый для всего списка прокси
В настройках чекера указываем:
- login
- password
- Использовать авторизацию прокси
Список прокси с разными паролями для каждой прокси
В этом случае список прокси должен иметь формат login:[email protected]:port
, в настройках чекера достаточно указать Использовать авторизацию прокси
⏩ Видео: подключение прокси с авторизацией
Выбор проксичекера для задания
Данные настройки необходимы для разграничения работы заданий с различными проксичекерами, вы можете пропустить этот раздел если необходимо использовать все доступные прокси во всех заданиях
Заходим в меню Настройки -> Настройки потоков, выбираем нужный пресет или создаем новый (кнопка Добавить новый).
В поле Проксичекеры выбираем один или несколько проксичекеров (для использования проксичекеры должны быть включены) и сохраняем (Сохранить). Так же можно выбрать сразу все проксичекеры All (значение по-умолчанию).
Теперь можно использовать созданный Конфиг потоков, с заданными прокси в своих задачах, выбрав его в Редакторе заданий.
Также можно переопределять прокси чекер в каждом парсере с помощью функции переопределения - Proxy Checker.
Опция Exclude from "All" в настройках проксичекера позволяет исключить его прокси из общего обращения в A-Parser. Данная опция полезна в тех случаях, когда необходимо сделать определенные прокси доступными только из конкретных заданий или только для конкретных парсеров:
- для задания необходимо принудительно выбрать исключенный проксичекер
- для конкретного парсера необходимо выставить в настройках использование исключенного проксичекера
Изменения в логике
Ранее, если в задании был выбран конкретный проксичекер, а в парсере указан другой проксичекер, парсер ожидал прокси. Теперь настройки конкретного парсера являются более приоритетными:
- "All" - использует все прокси выбранные для задания
- конкретный проксичекер - использует его, даже если он не выбран в задании
Параметры проксичекеров
Название параметра | Значение по умолчанию | Описание |
---|---|---|
Loading type | Replace | Определяет сохранять ли предыдущие загруженные прокси или нет, Add - всегда добавляет новые прокси в общий список, Replace - замещает старые прокси новыми загруженными |
Load threads count | 5 | Количество потоков загрузки проксей с сайтов |
Load interval | 30 | Интервал между полной перепроверкой списка сайтов |
Load timeout | 30 | Таймаут на запрос к сайту с проксями |
Load max size | 524288 | Максимальный размер страницы с проксями, если страница больше то она обрезается до заданного размера |
Load limit count | 0 | Ограничение количества загружаемых прокси, 0 для отключения |
No check proxies | ☐ | Позволяет отключить проверку проксей. Все загруженные прокси автоматически считаются живыми |
Proxies type | HTTP, SOCKS5 | Выбор какие типы проксей проверять и в какой последовательности, если указано одновременно HTTP и SOCKS то при неудачной проверки на HTTP прокси будет повторно проверена на протокол SOCKS |
Check threads | 15 | Количество потоков проверки проксей |
Check url | http://work.a-poster.info:25000/ | Ссылка на скрипт проверки проксей, на данный момент проверка осуществляется через сервер парсера, в будущем это поведение может измениться |
Check interval | 30 | Интервал между полными перепроверками всех проксей |
Check timeout | 5 | Таймаут прокси |
Check max size | 5120 | Максимальный размер скачиваемой страницы при проверке прокси |
Check anonymous | ☐ | Проверять прокси на анонимность, если выбрано то необходимо обязательно указать External IP |
External IP | - | Внешний ip адрес компьютера\сервера, необходимо указывать если включена опция Check anonymous |
Exclude from "All" | ☐ | По умолчанию в каждом парсере в качестве проксичекера выбрано значение "All", т.е. используются все доступные проксичекеры. Если опция включена, проксичекер будет исключен из All. |
Save alive proxies to file | No | Сохранять живые прокси в файл files/proxy/alive.txt |
Use proxy authorization | ☐ | Использовать авторизацию для проксей по логин\паролю |
Authorization login | - | Логин для авторизации |
Authorization password | - | Пароль для авторизации |
Установка скрипта проверки на хостинг
По умолчанию A-Parser проверяет прокси через свой скрипт проверки, без необходимости установки скрипта на свой хостинг
Загрузите на ваш хостинг или сервер следующий PHP скрипт и укажите ссылку на него в Check url:
<?php
print_r($_SERVER);
print_r($_POST);
?>
И прописать один из списков прокси:
- **[http://work.a-poster.info/prx/perm_socks.txt](http://work.a-poster.info/prx/perm_socks.txt)** - На каждом порту своя прокси со своим выходным IP адресом. Прокси зафиксирована за своим портом пока находится онлайн. Данный список обновляется каждые 30 секунд и всегда содержит актуальные и живые прокси.
- **[http://work.a-poster.info/prx/rand_socks.txt](http://work.a-poster.info/prx/rand_socks.txt)** - Выходной IP адрес меняется для каждого подключения к прокси. IP адрес выбирается случайным образом из всех живых прокси. Данный список фиксированный и необходимости обновлять его нет