Перейти к основному содержимому

Настройка прокси

Качественная работа A-Parser в большинстве случаев опирается на работу с прокси, поэтому A-Parser имеет первоклассную поддержку прокси самых различных вариантов и конфигураций, а также поддерживает одновременную работу с несколькими разными источниками прокси, как в одном задании, так и разделяя по типу между разными заданиями.

Основные возможности A-Parser по работе с прокси:

  • Одновременная поддержка HTTP, SOCKS4 и SOCKS5 проксей
  • Многопоточная проверка прокси
  • Загрузка проксей из локального файла
  • Многопоточная загрузка с внешних источников
  • Проверка на анонимность
  • Поддержка авторизации по логин\паролю как для HTTP так и для SOCKS5 прокси, а так же поддержка различных данных для авторизации в формате login:[email protected]:port
  • Возможность задать произвольные регулярные выражения для IP-адреса и порта прокси при парсинге с внешних источников
  • Возможность выгрузки проверенных проксей в файл
  • Возможность использовать несколько источников прокси в одном задании
  • Поддержка доменных прокси в форматах domain:рort и login:р[email protected]:рort

Файловая структура

Рабочие файлы проксичекера находятся в папке files/proxy/<название проксичекера>:

  • proxy.txt - из этого файла происходит загрузка проксей, сюда необходимо положить список прокси
  • sites.txt - в этот файл необходимо положить список источников проксей (ссылки на прокси, в формате одна ссылка на строку)
  • alive.txt - в этот файл каждые 5 секунд сохраняются живые прокси если включена соответствующая опция
  • regex.txt - в этом файле находится список регулярных выражений для парсинга проксей с внешних источников (в формате одно регулярное выражение на строку, в $1 должен быть IP адрес, в $2 - порт)
к сведению

Если у вас есть ссылки на источники прокси - укажите их в файле sites.txt, файл proxy.txt необходимо оставить пустым

примечание

Для "default" проксичекера файлы находятся в корне каталога files/proxy/

Управление

Управление прокси чекерами осуществляется во вкладке Проксичекер, там можно добавлять, удалять, а также включать и отключать прокси чекеры. Так же в этой вкладке отображается статистика работы каждого прокси чекера, график живых прокси и статистика по обработке источников:

img

Добавление и настройка проксичекера

Заходим в меню "Проксичекер" и нажимаем "Добавить чекер" или выбираем в существующем проксичекере в выпадающем меню "Редактировать". Попадаем на страницу настройки проксичекера.

img

При необходимости выставляем необходимое количество потоков для проверки проксей (Потоков проверки), выбираем тип прокси (Тип прокси) и меняем другие настройки. Значения параметров по-умолчанию подходят для большинства задач. Сохраняем настройки как новый проксичекер. Изменить и сохранить настройки default проксичекера нельзя.

Источники прокси указываются в файлах внутри папки с именем созданного проксичекера (files/proxy/.../):

  • ссылки в sites.txt
  • список прокси в proxy.txt

img

Настройка прокси из Личного кабинета

Чтобы использовать прокси от A-Parser, необходимо зайти в Личный кабинет, во вкладку Прокси, нажать кнопку Использовать IP и кнопку Сохранить.

img

При использовании прокси от А-Парсера достаточно отключить проверку прокси (Не проверять прокси - поставить галочку), остальные настройки можно оставить по-умолчанию. Сохраняем пресет (для уже существующих нажать Сохранить, для новых - Добавить новый).

img

Возвращаемся в меню "Проксичекер", проверяем, включен ли только что созданный чекер, если нет, то включаем.

img

Открываем каталог проксичекера, указанный в поле "Рабочий каталог".

img

Из Личного кабинета копируем 1 ссылку на список прокси и указываем ее в sites.txt созданного проксичекера.

  • http://work.a-poster.info/prx/perm_socks.txt - На каждом порту своя прокси со своим выходным IP адресом. Прокси зафиксирована за своим портом пока находится онлайн. Данный список обновляется каждые 30 секунд и всегда содержит актуальные и живые прокси. Рекомендуется для большинства задач.
  • http://work.a-poster.info/prx/rand_socks.txt - Выходной IP адрес меняется для каждого подключения к прокси. IP адрес выбирается случайным образом из всех живых прокси. Данный список фиксированный и необходимости обновлять его нет

img

Возвращаемся в А-Парсер, в меню "Проксичкер". В поле "Всего живых" данного проксичекера должно быть больше 0 - значит прокси настроены правильно.

⏩ Видео: настройка, добавление прокси, запуск задания

Использование прокси с авторизацией

Список прокси с одинаковым логин паролем для всех прокси

Данный способ подходит для случаев когда список прокси имеет формат ip:port и логин/пароль одинаковый для всего списка прокси

В настройках чекера указываем:

  • login
  • password
  • Использовать авторизацию прокси

img

Список прокси с разными паролями для каждой прокси

В этом случае список прокси должен иметь формат login:[email protected]:port, в настройках чекера достаточно указать Использовать авторизацию прокси

img

⏩ Видео: подключение прокси с авторизацией

Выбор проксичекера для задания

к сведению

Данные настройки необходимы для разграничения работы заданий с различными проксичекерами, вы можете пропустить этот раздел если необходимо использовать все доступные прокси во всех заданиях

Заходим в меню Настройки -> Настройки потоков, выбираем нужный пресет или создаем новый (кнопка Добавить новый).

В поле Проксичекеры выбираем один или несколько проксичекеров (для использования проксичекеры должны быть включены) и сохраняем (Сохранить). Так же можно выбрать сразу все проксичекеры All (значение по-умолчанию).

img

Теперь можно использовать созданный Конфиг потоков, с заданными прокси в своих задачах, выбрав его в Редакторе заданий.

img

Также можно переопределять прокси чекер в каждом парсере с помощью функции переопределения - Proxy Checker.

img

Опция Exclude from "All" в настройках проксичекера позволяет исключить его прокси из общего обращения в A-Parser. Данная опция полезна в тех случаях, когда необходимо сделать определенные прокси доступными только из конкретных заданий или только для конкретных парсеров:

  • для задания необходимо принудительно выбрать исключенный проксичекер
  • для конкретного парсера необходимо выставить в настройках использование исключенного проксичекера

Изменения в логике

Ранее, если в задании был выбран конкретный проксичекер, а в парсере указан другой проксичекер, парсер ожидал прокси. Теперь настройки конкретного парсера являются более приоритетными:

  • "All" - использует все прокси выбранные для задания
  • конкретный проксичекер - использует его, даже если он не выбран в задании

Параметры проксичекеров

Название параметраЗначение по умолчаниюОписание
Loading typeReplaceОпределяет сохранять ли предыдущие загруженные прокси или нет, Add - всегда добавляет новые прокси в общий список, Replace - замещает старые прокси новыми загруженными
Load threads count5Количество потоков загрузки проксей с сайтов
Load interval30Интервал между полной перепроверкой списка сайтов
Load timeout30Таймаут на запрос к сайту с проксями
Load max size524288Максимальный размер страницы с проксями, если страница больше то она обрезается до заданного размера
Load limit count0Ограничение количества загружаемых прокси, 0 для отключения
No check proxiesПозволяет отключить проверку проксей. Все загруженные прокси автоматически считаются живыми
Proxies typeHTTP, SOCKS5Выбор какие типы проксей проверять и в какой последовательности, если указано одновременно HTTP и SOCKS то при неудачной проверки на HTTP прокси будет повторно проверена на протокол SOCKS
Check threads15Количество потоков проверки проксей
Check urlhttp://work.a-poster.info:25000/Ссылка на скрипт проверки проксей, на данный момент проверка осуществляется через сервер парсера, в будущем это поведение может измениться
Check interval30Интервал между полными перепроверками всех проксей
Check timeout5Таймаут прокси
Check max size5120Максимальный размер скачиваемой страницы при проверке прокси
Check anonymousПроверять прокси на анонимность, если выбрано то необходимо обязательно указать External IP
External IP-Внешний ip адрес компьютера\сервера, необходимо указывать если включена опция Check anonymous
Exclude from "All"По умолчанию в каждом парсере в качестве проксичекера выбрано значение "All", т.е. используются все доступные проксичекеры. Если опция включена, проксичекер будет исключен из All.
Save alive proxies to fileNoСохранять живые прокси в файл files/proxy/alive.txt
Use proxy authorizationИспользовать авторизацию для проксей по логин\паролю
Authorization login-Логин для авторизации
Authorization password-Пароль для авторизации

Установка скрипта проверки на хостинг

к сведению

По умолчанию A-Parser проверяет прокси через свой скрипт проверки, без необходимости установки скрипта на свой хостинг

Загрузите на ваш хостинг или сервер следующий PHP скрипт и укажите ссылку на него в Check url:

<?php

print_r($_SERVER);
print_r($_POST);

?>

И прописать один из списков прокси:

- **[http://work.a-poster.info/prx/perm_socks.txt](http://work.a-poster.info/prx/perm_socks.txt)** - На каждом порту своя прокси со своим выходным IP адресом. Прокси зафиксирована за своим портом пока находится онлайн. Данный список обновляется каждые 30 секунд и всегда содержит актуальные и живые прокси.
- **[http://work.a-poster.info/prx/rand_socks.txt](http://work.a-poster.info/prx/rand_socks.txt)** - Выходной IP адрес меняется для каждого подключения к прокси. IP адрес выбирается случайным образом из всех живых прокси. Данный список фиксированный и необходимости обновлять его нет