Сейчас сидел на форуме ботмастера и читал статью про то, как с помощью хрефера и зенночекера можно собрать большую базу паблик прокси и чекать её и получать не плохой результат. В общем в одном из комментов чел написал: У него уточнить суть метода проблематично, т.к. этому посту почти год, вот может кто-то знает и может подсказать как это можно реализовать?
совместить несколько простых действий: 1. напарсить страниц с гугла(или любой другой ПС) по тематичным запросам типа free proxy list и т.п. 2. используя Net::HTTP и фильтр по регулярному выражению, которому соответсвует стандартный формат записи прокси (\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,5}) отсеять только те страницы, на которых действительно есть прокси 3. скормить отфильтрованную базу проксичекеру как то так
Что-то я никак не могу найти, как вызвать "Filter result on", на что не нажимаю, всё время появляется "Source result".
Спасибо за темку По поводу парсинга проксей с сайтов - даже после прохождения рег.экспа в файле остается много мусора А по поводу этих проксей - нормальной скорости с них достичь все равно не получилось.
если на сайте есть комбинация iport то это с большой вероятностью прокси, впрочем парсеру неважно мусор это или нет - он проверяет источники в многопоточном режиме те кто умеют собирать много паблик проксей проблем со скоростью не имеют
Да, парсер справляется с этим на все 100%, но под мусором я имел в виду разный текст, начиная от кусков js скриптом, заканчивая iport между div`ами Кто бы меня научил...) собрал 25к проксей, анонимных - 2,5к, а скорость под вордстат - около 100
убери галку чекать на анонимные , ты же не спамиш , мб поможет, так же пробуй прокси бан 0 поставить а число повторов увеличить до 20,30,40.. надо смотреть сколько бедов будет если много то увеличивай , но с 25к проксями думаю и так должно норм работать без манипуляций с прокси баном и повторами
А как можно почистить базу на страницы на форумах и подобные однодневки? Имею ввиду, что есть форумы, где выкладывают прокси, но там каждый день новая тема обычно.
Данная ошибка указывает на то, что у вас в задании указано регулярное выражение с ошибкой, скорее всего в каком-то фильтре. Если требуется помощь в данном вопросе, то лучше написать в Техническую поддержку по одному из контактов: https://a-parser.com/pages/support/