HTML::EmailExtractor - парсинг e-mail адресов со страниц сайтов

5 дек 2017

  • Собираемые данные(top)


    • Собирает адреса электронной почты с указанных страниц

    Возможности(top)


    • Переход по внутренним страницам сайта до указанной глубины(опция Parse to level) - позволяет пройтись по всем страницам сайта, собирая внутренние и внешние ссылки
    • Определение кодировки сайта
    • Определение follow links для ссылок
    • Возможность указать считать сабдомены как внутренние страницы сайта

    Варианты использования(top)


    • Используется для сбора e-mail адресов, которые размещены на страницах сайтов
    • Возможность вывода количества e-mail адресов, размещенных на страницах сайта, через переменную $mailcount

    Запросы(top)


    В запросе необходимо указывать сайт с которого нужно спарсить e-mail адрес(а)

    Опция Parse to level(top)


    Указывает парсеру переходить по соседним страницам сайта в глубину до указанного уровня, например:
    • Если указан 1-ый уровень то парсер перейдёт по всем ссылкам указанным на исходной странице
    • Если указан 2-ой уровень то парсер перейдёт по всем ссылкам указанным на исходной странице + по всем ссылкам собранным со страниц на первом уровне
    • т.д.
    Т.к. на соседних страницах скорее всего будут ссылки на исходную страницу или повторы ссылок, то для того чтобы парсер не зациклился и не ходил по кругу необходимо обязательно включать уникальность запросов(Unique queries).

    Результаты(top)


    • В результате отображен e-mail адрес(а) сайта

    Возможные настройки(top)

    Общие настройки для всех парсеров
    ПараметрЗначение по умолчаниюОписание
    Good statusAllВыбор какой ответ с сервера будет считается успешным. Если при парсинге будет другой ответ от сервера, то запрос будет повторен с другим прокси
    Good code RegEx-Возможность указать регулярное выражения для проверки кода ответа
    MethodGETМетод запроса
    POST body-Контент для передачи на сервер при использовании метода POST. Поддерживает переменные $query - url запроса, $query.orig - исходный запрос и $pagenum - номер страницы при использовании опции Use Pages
    Cookies-Возможность указать cookies для запроса
    User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Заголовок User-Agent при запросе страниц
    Additional headers-Возможность указать произвольные заголовки запроса, с поддержкой возможностей шаблонизатора и использованием переменных из конструктора запросов
    Read only headersЧитать только заголовки. Позволяет в некоторых случаях экономить трафик, если нет необходимости обрабатывать контент.
    Detect charset on contentВозможность распознавать кодировку на основе содержимого страницы
    Emulate browser headersВозможность эмулировать заголовки браузера
    Max redirects count7Максимальное кол-во редиректов по которым будет переходить парсер
    Max cookies count16Максимальное число Cookie для сохранения
    Bypass CloudFlareАвтоматический обход проверки CloudFlare на браузер
    Subdomains are internalСчитать ли поддомены как внутренние ссылки
    Follow linksInternal onlyОпределяет по каким ссылкам переходить
    Search Cloudflare protected e-mailsОпределяет парсить ли Cloudflare protected e-mails
Misery713 нравится это.