Нужно собрать источники паблик прокси

Malchishka

A-Parser Pro License
A-Parser Pro
Сейчас сидел на форуме ботмастера и читал статью про то, как с помощью хрефера и зенночекера можно собрать большую базу паблик прокси и чекать её и получать не плохой результат.
В общем в одном из комментов чел написал:
Я лично делал по другому, купил a-parser и 3 дня собирал и фильтровал источники на паблик прокси. На выходе база +1200 рабочих анонимных прокси (благодаря моей базе) за 5 минут и парсю я им гугл целыми днями))
У него уточнить суть метода проблематично, т.к. этому посту почти год, вот может кто-то знает и может подсказать как это можно реализовать?
 
совместить несколько простых действий:
1. напарсить страниц с гугла(или любой другой ПС) по тематичным запросам типа free proxy list и т.п.
2. используя Net::HTTP и фильтр по регулярному выражению, которому соответсвует стандартный формат записи прокси (\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,5}) отсеять только те страницы, на которых действительно есть прокси
3. скормить отфильтрованную базу проксичекеру

как то так :)
 
2. используя Net::HTTP и фильтр по регулярному выражению, которому соответсвует стандартный формат записи прокси (\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,5}) отсеять только те страницы, на которых действительно есть прокси

А можно этот пункт подробнее, желательно скрином :oops:
 
JFpYG.png


FAQ по использованию фильтров
 
Что-то я никак не могу найти, как вызвать "Filter result on", на что не нажимаю, всё время появляется "Source result".
 
Спасибо за темку ;)
По поводу парсинга проксей с сайтов - даже после прохождения рег.экспа в файле остается много мусора :(
А по поводу этих проксей - нормальной скорости с них достичь все равно не получилось.
 
По поводу парсинга проксей с сайтов - даже после прохождения рег.экспа в файле остается много мусора
если на сайте есть комбинация ip:port то это с большой вероятностью прокси, впрочем парсеру неважно мусор это или нет - он проверяет источники в многопоточном режиме


А по поводу этих проксей - нормальной скорости с них достичь все равно не получилось.
те кто умеют собирать много паблик проксей проблем со скоростью не имеют :)
 
если на сайте есть комбинация ip:port то это с большой вероятностью прокси, впрочем парсеру неважно мусор это или нет - он проверяет источники в многопоточном режиме
Да, парсер справляется с этим на все 100%, но под мусором я имел в виду разный текст, начиная от кусков js скриптом, заканчивая ip:port между div`ами :)
те кто умеют собирать много паблик проксей проблем со скоростью не имеют :)
Кто бы меня научил...) собрал 25к проксей, анонимных - 2,5к, а скорость под вордстат - около 100
 
Да, парсер справляется с этим на все 100%, но под мусором я имел в виду разный текст, начиная от кусков js скриптом, заканчивая ip:port между div`ами :)

Кто бы меня научил...) собрал 25к проксей, анонимных - 2,5к, а скорость под вордстат - около 100
убери галку чекать на анонимные , ты же не спамиш , мб поможет, так же пробуй прокси бан 0 поставить а число повторов увеличить до 20,30,40.. надо смотреть сколько бедов будет если много то увеличивай , но с 25к проксями думаю и так должно норм работать без манипуляций с прокси баном и повторами
 
А как можно почистить базу на страницы на форумах и подобные однодневки? Имею ввиду, что есть форумы, где выкладывают прокси, но там каждый день новая тема обычно.
 
Не получается спарсить прокси с любых страниц. Помогите

1afac3c5d552.jpg
 
У меня вообще почему то такая ошибка
Данная ошибка указывает на то, что у вас в задании указано регулярное выражение с ошибкой, скорее всего в каком-то фильтре. Если требуется помощь в данном вопросе, то лучше написать в Техническую поддержку по одному из контактов: https://a-parser.com/pages/support/
 
Назад
Верх