ошибка или недочёт в HTML::TextExtractor

DeLaKroiX

A-Parser Enterprise License
A-Parser Enterprise
возможно это конечно я что-то не то настроил или не так понял, но текстэкстрактор парсит ВСЮ страницу, а не блок текста, соответствующий заданному минимальному кол-ву символов. мне почему-то кажется, что так изначально не задумывалось, ну или это логически неверно вроде как, мы ж текстовку парсим, а не набор строк по 1 слову.
7nKaaQ4W.png


вот мои настройки
7nKaaQ4Y.png
 
Последнее редактирование:
Используй разделитель между блоками:
Код:
$p1.texts.format('$text\n-----\n')
и тогда увидишь из каких блоков состоит текст
 
Как отсеить строки меньше определенной длины?

Именно строки в блоке.
 
Как отсеить строки меньше определенной длины?

Именно строки в блоке.
я так понял, что только сторонним софтом.

Почему же сторонним софтом? Достаточно обработать полученные блоки простенькой регуляркой.
Вот пример, который отсеивает все строки в блоках <50 символов:
7hhcx.png


A-Parser - многопоточный парсер поисковых систем,
сервисов оценки сайтов,
ключевых слов,
контента(текст, ссылки, произвольные данные) и других различных сервисов(youtube, картинки, переводчик...),
всего A-Parser содержит более 60 парсеров
--------
Упрощенный редактор, позволяет создавать простые задания парсинга с минимальным количеством настроек
--------
Полноценный редактор заданий позволяет использовать все возможности A-Parser'а
--------
Позволяет организовать непрерывную обработку множества заданий без вмешательства пользователя
--------
В A-Parser'е можно детально настроить каждый парсер, сохраняя разные настройки в отдельные пресеты
--------
A-Parser поддерживает HTTP и SOCKS5 прокси, в т.ч. с авторизацией, загрузка и проверка прокси проходит в многопоточном режиме
--------
A-Parser использует мощный шаблонизатор для формирования запросов и результатов, а также содержит инструмент тестирования шаблонов
--------
Инструмент тестирования отдельных парсеров, выводит полный лог выполнения запроса и результат парсинга
--------
A-Parser полностью решает рутинные задачи по получению, обработке и систематизации данных, необходимых для работы в следующих областях:
SEO-оптимизация сайтов и Web-аналитика
Сбор баз ссылок для XRumer, A-Poster, AllSubmitter, ZennoPoster...
Оценка сайтов и доменов по множеству параметров
Мониторинг позиции любых сайтов в поисковых системах
Сбор контента(текст, картинки, ролики) для генерации сайтов(дорвеев)
Отслеживание обратных ссылок
Сбор произвольной информации с любых сайтов(например телефоны/e-mails, сообщения с форумов, объявления...)
Сбор и оценка ключевых слов
Сбор списка обратных ссылок
И многое другое
Web-безопасность
Сбор и фильтрация баз ссылок по признакам
Определение CMS сайтов
Формирование произвольных GET, POST запросов с одновременной фильтрацией ответа
Сетевое администрирование
Работа с DNS службой - резолвинг доменов в IP адреса
Работа с Whois - дата регистрации и окончания регистрации доменов, name-cервера
Данный список включает лишь частые варианты применения парсера, A-Parser позволяет решать самые нестандартные задачи комбинируя его возможности, такие как:
Форматирование и подстановки в запросах
Использование множества разных парсеров для обработки запросов в одном задании
Конструктор запросов и результатов
Фильтрация и уникализация результатов
Мощный шаблонизатор для формирования результатов
Инструменты для десериализации JSON и обработки JavaScript
Тестировщик заданий для быстрого и эффективного составления заданий
A-Parser создавался и продолжает развиваться учитывая более чем 10 летний опыт разработки парсеров и многопоточных сетевых приложений, разработка ведется исключительно по следующим принципам:
Быстродействие и производительность, прежде всего за счет многопоточной обработки запросов
Максимальная эффективность использования ресурсов компьютера или сервера
Функциональность и удобство использования, наш продукт ориентирован на пользователя
Для каждой задачи выбирается лучший инструмент или алгоритм, предварительно прошедший тщательное тестирование
Для дальнейшего знакомства с A-Parser'ом рекомендуется полноценно оценить его преимущества,
ознакомится с отзывами пользователей,
выбрать необходимую версию
и перейти к оплате лицензии
--------
Ваше имя или e-mail: У Вас уже есть учётная запись?
Нет, зарегистрироваться сейчас.
Да, мой пароль:
--------
Регистрация
Возможности и преимущества
Отзывы пользователей
Онлайн демо
Оцените все возможности перед покупкой
--------
Пользователи онлайн
Дмитрий,
Vanzent,
simbatron,
Sobesednic,
capturis
--------
Всего: 48 (пользователей: 5, гостей: 32, роботов: 11)
--------
Темы: 1.957 Сообщения: 6.035 Пользователи: 1.721 User Record: 5.396 Новый пользователь: Bazillik
--------
Быстрые ссылки
Поиск сообщений
Последние сообщения
Документация
--------
Быстрые ссылки
Документация
Page List
Поддержка
Отзывы
Пользователи
--------
Быстрые ссылки
Выдающиеся пользователи
Сейчас на форуме
Недавняя активность
Новые сообщения профиля
Members Area
Партнерская программа
Меню
--------
Искать только в заголовках Сообщения пользователя:
Имена участников (разделяйте запятой). Новее чем:
--------
Стиль Default Style Язык Russian (RU)
Обратная связь
Помощь
Главная
Вверх
RSS
--------
контента(текст, ссылки, произвольные данные) и других различных сервисов(youtube, картинки, переводчик...),
Упрощенный редактор, позволяет создавать простые задания парсинга с минимальным количеством настроек
Полноценный редактор заданий позволяет использовать все возможности A-Parser'а
Позволяет организовать непрерывную обработку множества заданий без вмешательства пользователя
В A-Parser'е можно детально настроить каждый парсер, сохраняя разные настройки в отдельные пресеты
A-Parser поддерживает HTTP и SOCKS5 прокси, в т.ч. с авторизацией, загрузка и проверка прокси проходит в многопоточном режиме
A-Parser использует мощный шаблонизатор для формирования запросов и результатов, а также содержит инструмент тестирования шаблонов
Инструмент тестирования отдельных парсеров, выводит полный лог выполнения запроса и результат парсинга
A-Parser полностью решает рутинные задачи по получению, обработке и систематизации данных, необходимых для работы в следующих областях:
Сбор баз ссылок для XRumer, A-Poster, AllSubmitter, ZennoPoster...
Мониторинг позиции любых сайтов в поисковых системах
Сбор контента(текст, картинки, ролики) для генерации сайтов(дорвеев)
Сбор произвольной информации с любых сайтов(например телефоны/e-mails, сообщения с форумов, объявления...)
Формирование произвольных GET, POST запросов с одновременной фильтрацией ответа
Работа с DNS службой - резолвинг доменов в IP адреса
Работа с Whois - дата регистрации и окончания регистрации доменов, name-cервера
Данный список включает лишь частые варианты применения парсера, A-Parser позволяет решать самые нестандартные задачи комбинируя его возможности, такие как:
Использование множества разных парсеров для обработки запросов в одном задании
Инструменты для десериализации JSON и обработки JavaScript
Тестировщик заданий для быстрого и эффективного составления заданий
A-Parser создавался и продолжает развиваться учитывая более чем 10 летний опыт разработки парсеров и многопоточных сетевых приложений, разработка ведется исключительно по следующим принципам:
Быстродействие и производительность, прежде всего за счет многопоточной обработки запросов
Максимальная эффективность использования ресурсов компьютера или сервера
Функциональность и удобство использования, наш продукт ориентирован на пользователя
Для каждой задачи выбирается лучший инструмент или алгоритм, предварительно прошедший тщательное тестирование
Для дальнейшего знакомства с A-Parser'ом рекомендуется полноценно оценить его преимущества,
Ваше имя или e-mail: У Вас уже есть учётная запись?
Всего: 51 (пользователей: 5, гостей: 35, роботов: 11)
Темы: 1.957 Сообщения: 6.035 Пользователи: 1.721 User Record: 5.396 Новый пользователь: Bazillik
Искать только в заголовках Сообщения пользователя:
 
Назад
Верх