Улучшение парсинг произвольного текста со списка урлов

brxbrx · 26 Июн 2013

Со списка урлов парсил весь текст из боди, очищал от мусора - тегов и т.д.

sergeda · 26 Июн 2013

Очень нужная фича

lexone · 27 Июн 2013

Тоже за!

Forbidden · 27 Июн 2013

будет

Forbidden · 1 Июл 2013

HTML::TextExtractor:

lexone · 1 Июл 2013

Forbidden, большое тебе спасибо. У меня просьба, можешь сделать аналог http://x-parser.ru/software/1-x-parser-light.html? Ибо у него очень тяжко парсить, каптча и скорость ужасны...

Forbidden · 1 Июл 2013

lexone сказал(а):
Forbidden, большое тебе спасибо. У меня просьба, можешь сделать аналог http://x-parser.ru/software/1-x-parser-light.html? Ибо у него очень тяжко парсить, каптча и скорость ужасны...

а в чем проблема сейчас это делать? (после выхода следующей версии с HTML::TextExtractor)

Force68 · 1 Июл 2013

Forbidden сказал(а):
а в чем проблема сейчас это делать? (после выхода следующей версии с HTML::TextExtractor)

Forbidden, это бы было просто супер - тоже хотел вас попросить рассмотреть возможность добавить в а-парсер такой функционал.

Forbidden · 1 Июл 2013

Какой такой?

кто нибудь по человечески объяснит?

Force68 · 2 Июл 2013

Forbidden сказал(а):
Какой такой? кто нибудь по человечески объяснит?

ну как бы:

....автоматический парсер контента по списку ключевых слов. Алгоритмы парсера сделаны так, чтобы пользователю не нужно было производить какие-либо настройки, связанные с привязкой к шаблону сайтов-доноров. Все манипуляции с контентом парсер производит автоматически, и с достаточно высокой вероятностью находит непосредственно тело статьи среди всего контента отпарсенной страницы....

Forbidden · 2 Июл 2013

Ну дак в чем проблема напарсить линков через тот же SE::Yandex, а потом пройтись HTML::TextExtractor? он собирает все текстовые блоки, с указанием минимального размера

WarGuss · 2 Сен 2015

Forbidden если не сложно, выложите пожалуйста пример (если уже скажем есть ключи, как собрать статьи).

Support · 2 Сен 2015

Просто воспользуйтесь парсером

HTML::TextExtractor
Примеров на форуме есть много:
http://a-parser.com/threads/1822/
http://a-parser.com/threads/1820/
http://a-parser.com/threads/1678/

Улучшение парсинг произвольного текста со списка урлов

brxbrx

A-Parser Pro License

sergeda

A-Parser Enterprise License

lexone

A-Parser Enterprise License

Forbidden

Administrator

Forbidden

Administrator

lexone

A-Parser Enterprise License

Forbidden

Administrator

Force68

A-Parser Enterprise License

Forbidden

Administrator

Force68

A-Parser Enterprise License

Forbidden

Administrator

WarGuss

A-Parser Pro License

Support

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка