Перейти к основному содержимому

Проксичекеры

В этом разделе отображается статистика работы всех проксичекеров. Каждый проксичекер - это постоянно работающий модуль (если он включен), который проверяет прокси и тем самым имеет актуальный список живых проксей.

Можно добавить неограниченное количество проксичекеров и выбирать один или несколько из них для каждого задания или даже каждого парсера в задании. Таким образом есть возможность использовать в рамках одного задания одни прокси например для парсинга Google и совсем другие - для Яндекса.

Обзор Проксичекера

Сверху отображается общее количество живых прокси и количество запущенных (работающих) проксичекеров. Справа вверху кнопка добавления нового проксичекера. Подробнее о процедуре добавления проксичекеров описано в разделе Настройка прокси.

Ниже содержится список всех существующих проксичекеров в виде карточек с информацией о каждом проксичекере. На каждой карточке отображается следующая информация:

  • Рабочий каталог - папка с файлами проксичекера в aparser/files/proxy
  • Время обновления - время последней проверки загруженного списка прокси
  • Количество прокси в очереди проверки и общее количество загруженных прокси
  • Количество живых прокси
  • Статус загрузки либо дата следующей загрузки из источников прокси
  • Количество источников, из которых последний раз успешно были загружены прокси и общее количество источников в этом проксичекере
  • Текущий статус проверки прокси

Чекбокс Включен возле кнопок управления проксичекеров позволяет включать/выключать проксичекер.

Первым в списке проксичекеров всегда идет проксичекер default. Он является шаблоном для новых проксичекеров и его нельзя отредактировать или удалить.

Файловая структура

Рабочие файлы проксичекера находятся в папке files/proxy/<название проксичекера>:

  • proxy.txt - из этого файла происходит загрузка проксей, сюда необходимо положить список прокси
  • sites.txt - в этот файл необходимо положить список источников проксей (ссылки на прокси, в формате одна ссылка на строку)
  • alive.txt - в этот файл каждые 5 секунд сохраняются живые прокси если включена соответствующая опция
  • regex.txt - в этом файле находится список регулярных выражений для парсинга проксей с внешних источников (в формате одно регулярное выражение на строку, в $1 должен быть IP адрес, в $2 - порт)
примечание

Если у вас есть ссылки на источники прокси - укажите их в файле sites.txt, файл proxy.txt необходимо оставить пустым
Для "default" проксичекера файлы находятся в корне каталога files/proxy/

Добавление и настройка проксичекера

Заходим в меню "Проксичекер" и нажимаем "Добавить чекер" или выбираем в существующем проксичекере в выпадающем меню "Редактировать". Попадаем на страницу настройки проксичекера.

Добавление Проксичекера

При необходимости выставляем необходимое количество потоков для проверки проксей (Потоков проверки), выбираем тип прокси (Тип прокси) и меняем другие настройки. Значения параметров по умолчанию подходят для большинства задач. Сохраняем настройки как новый проксичекер. Изменить и сохранить настройки default проксичекера нельзя.

Источники прокси указываются в файлах внутри папки с именем созданного проксичекера (files/proxy/.../):

  • ссылки в sites.txt
  • список прокси в proxy.txt
Источники прокси в рабочем каталоге

Прокси с IP доступом

Прокси с доступом по IP настраиваются похожим образом.

Список прокси с одинаковым логин паролем для всех прокси

Данный способ подходит для случаев когда список прокси имеет формат ip:port и логин/пароль одинаковый для всего списка прокси

В настройках чекера указываем:

  • login
  • password
  • Использовать авторизацию прокси
Настройка: cписок прокси с одинаковым логин паролем для всех прокси

Список прокси с разными паролями для каждой прокси

В этом случае список прокси должен иметь формат login:password@ip:port, в настройках чекера достаточно указать Использовать авторизацию прокси

Настройка: cписок прокси с разными паролями для каждой прокси

⏩ Видео: подключение прокси с авторизацией

Выбор проксичекера для задания

примечание

Данные настройки необходимы для разграничения работы заданий с различными проксичекерами, вы можете пропустить этот раздел если необходимо использовать все доступные прокси во всех заданиях

Заходим в меню Настройки -> Настройки потоков, выбираем нужный пресет или создаем новый (кнопка Добавить новый).

В поле Проксичекеры выбираем один или несколько проксичекеров (для использования проксичекеры должны быть включены) и сохраняем (Сохранить). Так же можно выбрать сразу все проксичекеры All (значение по умолчанию).

Выбор проксичекера для задания

Теперь можно использовать созданный Конфиг потоков, с заданными прокси в своих задачах, выбрав его в Редакторе заданий.

Выбор конфига потоков

Также можно переопределять проксичекер в каждом парсере с помощью функции переопределения - Proxy Checker.

Переопределение Проксичекера

Опция Exclude from "All" в настройках проксичекера позволяет исключить его прокси из общего обращения в A-Parser. Данная опция полезна в тех случаях, когда необходимо сделать определенные прокси доступными только из конкретных заданий или только для конкретных парсеров:

  • для задания необходимо принудительно выбрать исключенный проксичекер
  • для конкретного парсера необходимо выставить в настройках использование исключенного проксичекера

Изменения в логике

Ранее, если в задании был выбран конкретный проксичекер, а в парсере указан другой проксичекер, парсер ожидал прокси. Теперь настройки конкретного парсера являются более приоритетными:

  • "All" - использует все прокси выбранные для задания
  • конкретный проксичекер - использует его, даже если он не выбран в задании

Параметры проксичекеров

Название параметраЗначение по умолчаниюОписание
Loading typeReplaceОпределяет сохранять ли предыдущие загруженные прокси или нет, Add - всегда добавляет новые прокси в общий список, Replace - замещает старые прокси новыми загруженными
Load threads count5Количество потоков загрузки проксей с сайтов
Load interval30Интервал между полной перепроверкой списка сайтов
Load timeout30Таймаут на запрос к сайту с проксями
Load max size524288Максимальный размер страницы с проксями, если страница больше то она обрезается до заданного размера
Load limit count0Ограничение количества загружаемых прокси, 0 для отключения
No check proxiesПозволяет отключить проверку проксей. Все загруженные прокси автоматически считаются живыми
Proxies typeHTTP, SOCKS5Выбор какие типы проксей проверять и в какой последовательности, если указано одновременно HTTP и SOCKS то при неудачной проверки на HTTP прокси будет повторно проверена на протокол SOCKS
Check threads15Количество потоков проверки проксей
Check urlhttp://work.a-poster.info:25000/Ссылка на скрипт проверки проксей, на данный момент проверка осуществляется через сервер парсера, в будущем это поведение может измениться
Check interval30Интервал между полными перепроверками всех проксей
Check timeout5Таймаут прокси
Check max size5120Максимальный размер скачиваемой страницы при проверке прокси
Check anonymousПроверять прокси на анонимность, если выбрано то необходимо обязательно указать External IP
External IPВнешний ip адрес компьютера\сервера, необходимо указывать если включена опция Check anonymous
Exclude from "All"По умолчанию в каждом парсере в качестве проксичекера выбрано значение "All", т.е. используются все доступные проксичекеры. Если опция включена, проксичекер будет исключен из All.
Save alive proxies to fileNoСохранять живые прокси в файл files/proxy/alive.txt
Use proxy authorizationИспользовать авторизацию для проксей по логин\паролю
Authorization loginЛогин для авторизации
Authorization passwordПароль для авторизации

Установка скрипта проверки на хостинг

примечание

По умолчанию A-Parser проверяет прокси через свой скрипт проверки, без необходимости установки скрипта на свой хостинг

Загрузите на ваш хостинг или сервер следующий PHP скрипт и укажите ссылку на него в Check url:

<?php

print_r($_SERVER);
print_r($_POST);

?>

И прописать один из списков прокси:

- **[http://work.a-poster.info/prx/perm_socks.txt](http://work.a-poster.info/prx/perm_socks.txt)** - На каждом порту своя прокси со своим выходным IP адресом. Прокси зафиксирована за своим портом пока находится онлайн. Данный список обновляется каждые 30 секунд и всегда содержит актуальные и живые прокси.
- **[http://work.a-poster.info/prx/rand_socks.txt](http://work.a-poster.info/prx/rand_socks.txt)** - Выходной IP адрес меняется для каждого подключения к прокси. IP адрес выбирается случайным образом из всех живых прокси. Данный список фиксированный и необходимости обновлять его нет