Net::HTTP - Скачивает указанную страницу, поддерживает многостраничный парсинг.

15 ноя 2016

  • Собираемые данные(top)


    • Код ответа сервера
    • Описание ответа сервера
    • Заголовки ответа сервера
    • Контент
    • Прокси использованные при данном запросе
    • Массив со всеми страницами (используется при работе опции Use Pages)

    Возможности(top)


    • Опция Check content - проверяет, если регулярное выражение не сработало, то страница будет загружена заново с другим прокси
    [​IMG]
    • Опция Use Pages - позволяет перебрать указанное количество страниц с определенным шагом. $pagenum - переменная, содержащая текущий номер страницы при переборе. Ее нужно использовать для подстановки в нужное место.
    [​IMG]
    • Опция Check next page - RegEx который определяет существует ли следующая страница или нет, и если существует - переходит на нее, в рамках указанного лимита (0 - без ограничений)
    [​IMG]

    • Опция Page as new query - передает переход на следующую страницу как новый запрос, тем самым позволяя убрать ограничение на количество страниц для перехода
    [​IMG]

    Варианты использования(top)


    Запросы(top)


    В качестве запросов необходимо указывать ссылки на страницы:


    Возможные настройки(top)


    Общие настройки для всех парсеров
    ПараметрЗначение по умолчаниюОписание
    Good statusAllВыбор какой ответ с сервера будет считается успешным. Если при парсинге будет другой ответ от сервера, то запрос будет повторен с другим прокси
    Good code RegEx-Возможность указать регулярное выражения для проверки кода ответа
    MethodGETМетод запроса
    POST body-Контент для передачи на сервер при использовании метода POST. Поддерживает переменные $query - url запроса, $query.orig - исходный запрос и $pagenum - номер страницы при использовании опции Use Pages
    Cookies-Возможность указать cookies для запроса
    User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Заголовок User-Agent при запросе страниц
    Additional headers-Возможность указать произвольные заголовки запроса, с поддержкой возможностей шаблонизатора и использованием переменных из конструктора запросов
    Read only headersЧитать только заголовки. Позволяет в некоторых случаях экономить трафик, если нет необходимости обрабатывать контент.
    Detect charset on contentВозможность распознавать кодировку на основе содержимого страницы
    Emulate browser headersВозможность эмулировать заголовки браузера
    Max redirects count7Максимальное кол-во редиректов по которым будет переходить парсер
    Max cookies count16Максимальное число Cookie для сохранения
    Bypass CloudFlareАвтоматический обход проверки CloudFlare на браузер
capturis нравится это.