1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 1500+ и мы растем!
    Скрыть объявление

Net::HTTP - Скачивает указанную страницу, поддерживает многостраничный парсинг.

24 дек 2020

  • Собираемые данные(top)


    • Код ответа сервера
    • Описание ответа сервера
    • Заголовки ответа сервера
    • Контент
    • Прокси использованные при данном запросе
    • Массив со всеми страницами (используется при работе опции Use Pages)

    Возможности(top)


    • Опция Check content - проверяет, если регулярное выражение не сработало, то страница будет загружена заново с другим прокси
    [​IMG]
    • Опция Use Pages - позволяет перебрать указанное количество страниц с определенным шагом. $pagenum - переменная, содержащая текущий номер страницы при переборе. Ее нужно использовать для подстановки в нужное место.
    [​IMG]
    • Опция Check next page - RegEx который определяет существует ли следующая страница или нет, и если существует - переходит на нее, в рамках указанного лимита (0 - без ограничений)
    [​IMG]

    • Опция Page as new query - передает переход на следующую страницу как новый запрос, тем самым позволяя убрать ограничение на количество страниц для перехода
    [​IMG]

    Варианты использования(top)


    Запросы(top)


    В качестве запросов необходимо указывать ссылки на страницы:


    Возможные настройки(top)


    Общие настройки для всех парсеров
    ПараметрЗначение по умолчаниюОписание
    Good statusAllВыбор какой ответ с сервера будет считается успешным. Если при парсинге будет другой ответ от сервера, то запрос будет повторен с другим прокси
    Good code RegEx-Возможность указать регулярное выражения для проверки кода ответа
    MethodGETМетод запроса
    POST body-Контент для передачи на сервер при использовании метода POST. Поддерживает переменные $query - url запроса, $query.orig - исходный запрос и $pagenum - номер страницы при использовании опции Use Pages
    Cookies-Возможность указать cookies для запроса
    User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Заголовок User-Agent при запросе страниц
    Additional headers-Возможность указать произвольные заголовки запроса, с поддержкой возможностей шаблонизатора и использованием переменных из конструктора запросов
    Read only headersЧитать только заголовки. Позволяет в некоторых случаях экономить трафик, если нет необходимости обрабатывать контент.
    Detect charset on contentВозможность распознавать кодировку на основе содержимого страницы
    Emulate browser headersВозможность эмулировать заголовки браузера
    Max redirects count7Максимальное кол-во редиректов по которым будет переходить парсер
    Max cookies count16Максимальное число Cookie для сохранения
    Bypass CloudFlareАвтоматический обход проверки CloudFlare на браузер
    Follow common redirectsЭта опция позволяет делать редиректы http <-> https и www.domain <-> domain в пределах одного домена в обход лимита Max redirects count
    EngineHTTP (Fast, JavaScript Disabled)Позволяет выбрать движок HTTP (быстрее, без JavaScript) или Chrome (медленнее, JavaScript включен).
    Chrome HeadlessЕсли опция включена, браузер не будет отображаться.
    Chrome DevToolsПозволяет использовать инструменты для отладки Chromium.
    Chrome Log Proxy connectionsЕсли опция включена, в лог будет выводиться информация по подключениям chrome.
    Chrome Wait Untilnetworkidle2Определяет, когда страница считается загруженной. Подробнее о значениях
    Use HTTP/2 transportОпределяет, использовать ли HTTP/2 вместо HTTP/1.1. Например, Google и Majestic сразу банят, если использовать HTTP/1.1.
    Bypass CloudFlare with Chrome(Experimental)Обход CF через Chrome.
    Bypass CloudFlare with Chrome Max Pages-Макс. кол-во страниц при обходе CF через Chrome.
Monsur и capturis нравится это.