Улучшение парсинг произвольного текста со списка урлов

  • Автор темы Автор темы brxbrx
  • Дата начала Дата начала

brxbrx

A-Parser Pro License
A-Parser Pro
Со списка урлов парсил весь текст из боди, очищал от мусора - тегов и т.д.
 
HTML::TextExtractor:
uBpgk.png
 
а в чем проблема сейчас это делать? (после выхода следующей версии с HTML::TextExtractor)
Forbidden, это бы было просто супер - тоже хотел вас попросить рассмотреть возможность добавить в а-парсер такой функционал.
 
Какой такой? :) кто нибудь по человечески объяснит?
 
Какой такой? :) кто нибудь по человечески объяснит?


:D ну как бы:
....автоматический парсер контента по списку ключевых слов. Алгоритмы парсера сделаны так, чтобы пользователю не нужно было производить какие-либо настройки, связанные с привязкой к шаблону сайтов-доноров. Все манипуляции с контентом парсер производит автоматически, и с достаточно высокой вероятностью находит непосредственно тело статьи среди всего контента отпарсенной страницы....
 
Ну дак в чем проблема напарсить линков через тот же SE::Yandex, а потом пройтись HTML::TextExtractor? он собирает все текстовые блоки, с указанием минимального размера
 
Forbidden если не сложно, выложите пожалуйста пример (если уже скажем есть ключи, как собрать статьи).
 
Назад
Верх