1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Нужно собрать источники паблик прокси

Тема в разделе "Делимся опытом", создана пользователем Malchishka, 25 фев 2014.

  1. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    Сейчас сидел на форуме ботмастера и читал статью про то, как с помощью хрефера и зенночекера можно собрать большую базу паблик прокси и чекать её и получать не плохой результат.
    В общем в одном из комментов чел написал:
    У него уточнить суть метода проблематично, т.к. этому посту почти год, вот может кто-то знает и может подсказать как это можно реализовать?
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    совместить несколько простых действий:
    1. напарсить страниц с гугла(или любой другой ПС) по тематичным запросам типа free proxy list и т.п.
    2. используя Net::HTTP и фильтр по регулярному выражению, которому соответсвует стандартный формат записи прокси (\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,5}) отсеять только те страницы, на которых действительно есть прокси
    3. скормить отфильтрованную базу проксичекеру

    как то так :)
     
  3. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    А можно этот пункт подробнее, желательно скрином :oops:
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
  5. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    Что-то я никак не могу найти, как вызвать "Filter result on", на что не нажимаю, всё время появляется "Source result".
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    иконка с инструментом - Add results filter
     
    Malchishka нравится это.
  7. Syrex

    Syrex A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 дек 2013
    Сообщения:
    51
    Симпатии:
    11
    Спасибо за темку ;)
    По поводу парсинга проксей с сайтов - даже после прохождения рег.экспа в файле остается много мусора :(
    А по поводу этих проксей - нормальной скорости с них достичь все равно не получилось.
     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    если на сайте есть комбинация ip:port то это с большой вероятностью прокси, впрочем парсеру неважно мусор это или нет - он проверяет источники в многопоточном режиме


    те кто умеют собирать много паблик проксей проблем со скоростью не имеют :)
     
  9. Syrex

    Syrex A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 дек 2013
    Сообщения:
    51
    Симпатии:
    11
    Да, парсер справляется с этим на все 100%, но под мусором я имел в виду разный текст, начиная от кусков js скриптом, заканчивая ip:port между div`ами :)
    Кто бы меня научил...) собрал 25к проксей, анонимных - 2,5к, а скорость под вордстат - около 100
     
  10. coffee

    coffee A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 сен 2012
    Сообщения:
    33
    Симпатии:
    25
    убери галку чекать на анонимные , ты же не спамиш , мб поможет, так же пробуй прокси бан 0 поставить а число повторов увеличить до 20,30,40.. надо смотреть сколько бедов будет если много то увеличивай , но с 25к проксями думаю и так должно норм работать без манипуляций с прокси баном и повторами
     
  11. danni dannovich

    danni dannovich A-Parser Pro License
    A-Parser Pro

    Регистрация:
    15 янв 2015
    Сообщения:
    59
    Симпатии:
    2
    А как можно почистить базу на страницы на форумах и подобные однодневки? Имею ввиду, что есть форумы, где выкладывают прокси, но там каждый день новая тема обычно.
     
  12. pk_2155

    pk_2155 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 июн 2014
    Сообщения:
    16
    Симпатии:
    3
    Не получается спарсить прокси с любых страниц. Помогите

    [​IMG]
     
  13. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    а где скобки ( ) в регулярке?
     
    McNamara и pk_2155 нравится это.
  14. alex47715

    alex47715 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 июл 2020
    Сообщения:
    9
    Симпатии:
    0
    У меня вообще почему то такая ошибка
    [​IMG]
     
  15. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Данная ошибка указывает на то, что у вас в задании указано регулярное выражение с ошибкой, скорее всего в каком-то фильтре. Если требуется помощь в данном вопросе, то лучше написать в Техническую поддержку по одному из контактов: https://a-parser.com/pages/support/
     

Поделиться этой страницей