HTML::TextExtractor - Парсер текстовых блоков

15 ноя 2016

  • Собираемые данные(top)


    • Парсит текстовые блоки с указанной страницы

    Возможности(top)


    • Автоматическая очистка текста от HTML тегов
    • Возможность задания минимальной длины текстового блока
    • Опционально удаление ссылочных анкоров из текста

    Варианты использования(top)


    • Парсинг текстового контента с любых сайтов

    Запросы(top)


    • В качестве запросов необходимо указывать ссылки на страницы с которых необходимо спарсить текстовые блоки, например:


    Результаты(top)


    • В результате отображен текст с указанной в запросе странице:


    Возможные настройки(top)


    Общие настройки для всех парсеров
    ПараметрЗначение по умолчаниюОписание
    Min block length50Минимальная длинна текстового блока в символах
    Skip anchor textПропускать ли анкоры в тексте
    Bypass CloudFlareАвтоматический обход проверки CloudFlare на браузер
DeXtR нравится это.