1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

ошибка или недочёт в HTML::TextExtractor

Тема в разделе "Техническая поддержка", создана пользователем DeLaKroiX, 15 фев 2016.

  1. DeLaKroiX

    DeLaKroiX A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 дек 2015
    Сообщения:
    267
    Симпатии:
    96
    возможно это конечно я что-то не то настроил или не так понял, но текстэкстрактор парсит ВСЮ страницу, а не блок текста, соответствующий заданному минимальному кол-ву символов. мне почему-то кажется, что так изначально не задумывалось, ну или это логически неверно вроде как, мы ж текстовку парсим, а не набор строк по 1 слову.
    [​IMG]

    вот мои настройки
    [​IMG]
     
    #1 DeLaKroiX, 15 фев 2016
    Последнее редактирование: 15 фев 2016
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Используй разделитель между блоками:
    Код:
    $p1.texts.format('$text\n-----\n')
    и тогда увидишь из каких блоков состоит текст
     
    Support нравится это.
  3. qazwsxedc

    qazwsxedc A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 ноя 2012
    Сообщения:
    99
    Симпатии:
    15
    Как отсеить строки меньше определенной длины?

    Именно строки в блоке.
     
  4. DeLaKroiX

    DeLaKroiX A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 дек 2015
    Сообщения:
    267
    Симпатии:
    96
    я так понял, что только сторонним софтом.
     
  5. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Почему же сторонним софтом? Достаточно обработать полученные блоки простенькой регуляркой.
    Вот пример, который отсеивает все строки в блоках <50 символов:
    [​IMG]

    A-Parser - многопоточный парсер поисковых систем,
    сервисов оценки сайтов,
    ключевых слов,
    контента(текст, ссылки, произвольные данные) и других различных сервисов(youtube, картинки, переводчик...),
    всего A-Parser содержит более 60 парсеров
    --------
    Упрощенный редактор, позволяет создавать простые задания парсинга с минимальным количеством настроек
    --------
    Полноценный редактор заданий позволяет использовать все возможности A-Parser'а
    --------
    Позволяет организовать непрерывную обработку множества заданий без вмешательства пользователя
    --------
    В A-Parser'е можно детально настроить каждый парсер, сохраняя разные настройки в отдельные пресеты
    --------
    A-Parser поддерживает HTTP и SOCKS5 прокси, в т.ч. с авторизацией, загрузка и проверка прокси проходит в многопоточном режиме
    --------
    A-Parser использует мощный шаблонизатор для формирования запросов и результатов, а также содержит инструмент тестирования шаблонов
    --------
    Инструмент тестирования отдельных парсеров, выводит полный лог выполнения запроса и результат парсинга
    --------
    A-Parser полностью решает рутинные задачи по получению, обработке и систематизации данных, необходимых для работы в следующих областях:
    SEO-оптимизация сайтов и Web-аналитика
    Сбор баз ссылок для XRumer, A-Poster, AllSubmitter, ZennoPoster...
    Оценка сайтов и доменов по множеству параметров
    Мониторинг позиции любых сайтов в поисковых системах
    Сбор контента(текст, картинки, ролики) для генерации сайтов(дорвеев)
    Отслеживание обратных ссылок
    Сбор произвольной информации с любых сайтов(например телефоны/e-mails, сообщения с форумов, объявления...)
    Сбор и оценка ключевых слов
    Сбор списка обратных ссылок
    И многое другое
    Web-безопасность
    Сбор и фильтрация баз ссылок по признакам
    Определение CMS сайтов
    Формирование произвольных GET, POST запросов с одновременной фильтрацией ответа
    Сетевое администрирование
    Работа с DNS службой - резолвинг доменов в IP адреса
    Работа с Whois - дата регистрации и окончания регистрации доменов, name-cервера
    Данный список включает лишь частые варианты применения парсера, A-Parser позволяет решать самые нестандартные задачи комбинируя его возможности, такие как:
    Форматирование и подстановки в запросах
    Использование множества разных парсеров для обработки запросов в одном задании
    Конструктор запросов и результатов
    Фильтрация и уникализация результатов
    Мощный шаблонизатор для формирования результатов
    Инструменты для десериализации JSON и обработки JavaScript
    Тестировщик заданий для быстрого и эффективного составления заданий
    A-Parser создавался и продолжает развиваться учитывая более чем 10 летний опыт разработки парсеров и многопоточных сетевых приложений, разработка ведется исключительно по следующим принципам:
    Быстродействие и производительность, прежде всего за счет многопоточной обработки запросов
    Максимальная эффективность использования ресурсов компьютера или сервера
    Функциональность и удобство использования, наш продукт ориентирован на пользователя
    Для каждой задачи выбирается лучший инструмент или алгоритм, предварительно прошедший тщательное тестирование
    Для дальнейшего знакомства с A-Parser'ом рекомендуется полноценно оценить его преимущества,
    ознакомится с отзывами пользователей,
    выбрать необходимую версию
    и перейти к оплате лицензии
    --------
    Ваше имя или e-mail: У Вас уже есть учётная запись?
    Нет, зарегистрироваться сейчас.
    Да, мой пароль:
    --------
    Регистрация
    Возможности и преимущества
    Отзывы пользователей
    Онлайн демо
    Оцените все возможности перед покупкой
    --------
    Пользователи онлайн
    Дмитрий,
    Vanzent,
    simbatron,
    Sobesednic,
    capturis
    --------
    Всего: 48 (пользователей: 5, гостей: 32, роботов: 11)
    --------
    Темы: 1.957 Сообщения: 6.035 Пользователи: 1.721 User Record: 5.396 Новый пользователь: Bazillik
    --------
    Быстрые ссылки
    Поиск сообщений
    Последние сообщения
    Документация
    --------
    Быстрые ссылки
    Документация
    Page List
    Поддержка
    Отзывы
    Пользователи
    --------
    Быстрые ссылки
    Выдающиеся пользователи
    Сейчас на форуме
    Недавняя активность
    Новые сообщения профиля
    Members Area
    Партнерская программа
    Меню
    --------
    Искать только в заголовках Сообщения пользователя:
    Имена участников (разделяйте запятой). Новее чем:
    --------
    Стиль Default Style Язык Russian (RU)
    Обратная связь
    Помощь
    Главная
    Вверх
    RSS
    --------
    контента(текст, ссылки, произвольные данные) и других различных сервисов(youtube, картинки, переводчик...),
    Упрощенный редактор, позволяет создавать простые задания парсинга с минимальным количеством настроек
    Полноценный редактор заданий позволяет использовать все возможности A-Parser'а
    Позволяет организовать непрерывную обработку множества заданий без вмешательства пользователя
    В A-Parser'е можно детально настроить каждый парсер, сохраняя разные настройки в отдельные пресеты
    A-Parser поддерживает HTTP и SOCKS5 прокси, в т.ч. с авторизацией, загрузка и проверка прокси проходит в многопоточном режиме
    A-Parser использует мощный шаблонизатор для формирования запросов и результатов, а также содержит инструмент тестирования шаблонов
    Инструмент тестирования отдельных парсеров, выводит полный лог выполнения запроса и результат парсинга
    A-Parser полностью решает рутинные задачи по получению, обработке и систематизации данных, необходимых для работы в следующих областях:
    Сбор баз ссылок для XRumer, A-Poster, AllSubmitter, ZennoPoster...
    Мониторинг позиции любых сайтов в поисковых системах
    Сбор контента(текст, картинки, ролики) для генерации сайтов(дорвеев)
    Сбор произвольной информации с любых сайтов(например телефоны/e-mails, сообщения с форумов, объявления...)
    Формирование произвольных GET, POST запросов с одновременной фильтрацией ответа
    Работа с DNS службой - резолвинг доменов в IP адреса
    Работа с Whois - дата регистрации и окончания регистрации доменов, name-cервера
    Данный список включает лишь частые варианты применения парсера, A-Parser позволяет решать самые нестандартные задачи комбинируя его возможности, такие как:
    Использование множества разных парсеров для обработки запросов в одном задании
    Инструменты для десериализации JSON и обработки JavaScript
    Тестировщик заданий для быстрого и эффективного составления заданий
    A-Parser создавался и продолжает развиваться учитывая более чем 10 летний опыт разработки парсеров и многопоточных сетевых приложений, разработка ведется исключительно по следующим принципам:
    Быстродействие и производительность, прежде всего за счет многопоточной обработки запросов
    Максимальная эффективность использования ресурсов компьютера или сервера
    Функциональность и удобство использования, наш продукт ориентирован на пользователя
    Для каждой задачи выбирается лучший инструмент или алгоритм, предварительно прошедший тщательное тестирование
    Для дальнейшего знакомства с A-Parser'ом рекомендуется полноценно оценить его преимущества,
    Ваше имя или e-mail: У Вас уже есть учётная запись?
    Всего: 51 (пользователей: 5, гостей: 35, роботов: 11)
    Темы: 1.957 Сообщения: 6.035 Пользователи: 1.721 User Record: 5.396 Новый пользователь: Bazillik
    Искать только в заголовках Сообщения пользователя:
     
    DeLaKroiX и Force68 нравится это.

Поделиться этой страницей