Парсер текста

Force68 · 26 Окт 2013

Подскажите пожалуйста,
как настроить парсер, чтоб он по списку запросов,
заходил, допустим на первую страницу выдачи гугла,
затем переходил по ссылкам с выдачи и парсил текст,
к примеру чтоб в текстовых блоках было не менее 500 знаков,
(ну или другой какой параметр - смысл в том чтоб текстовой контент парсил,
а не всё подряд со страницы)

и сохранял это в текстовой файл, очистив от тегов html и прочего,
ну вроде как чистый текст чтоб на выходе получался,

возможно ли так сделать?

Forbidden · 26 Окт 2013

возможно в 2 этапа:
1. парсим ссылки на интересующие страницы через парсер SE::Google
2. парсим контент с этих ссылок с помощью парсера текста HTML::TextExtractor, будет текст очищенный от мусора, минимальную длину блока можно задать в настройках

Force68 · 26 Окт 2013

Спасибо, попробую настроить.

Force68 · 26 Окт 2013

Forbidden, а документации на текст экстрактор то и нету,
про настройки не почитать как там чего

настроить можно

Support · 26 Окт 2013

Cтатья по парсеру

HTML::TextExtractor создана.

Force68 · 26 Окт 2013

Forbidden, спасибо!

Force68 · 28 Окт 2013

От всё равно непонятно,
так в настройках есть поле post body
как я предполагаю для обозначения блока размётки для парсинга =

пишу туда

HTML:

<div class="post"></div>

но парсится всё равно всё подряд,
так же при настройках задания есть какие то пункты

но как ими пользоватся фиг знает,

вы бы показали на примере какого нибудь форума что ли,
как настроить парсер чтоб спарсить чисто контент без мусора

типа

Зарегистрирован: 06 мар 2013, 05:38
Сообщения: 29
Последний визит: 26 окт 2013, 19:31
Откуда: Россия, Новокузнецк
Благодарил (а): 0 раз.
Поблагодарили: раз.

Forbidden · 28 Окт 2013

POST Body и опции это от парсера Net::HTTP на котором основан Text::Extractor, непосредственного отношения к извлечению текста они не имеют

вот пример парсинга этой страницы, о каком мусоре идет речь?

Force68 · 28 Окт 2013

Хм, ну я имел ввиду возможность парсить только тело сообщения,
без элементов навигации и пр.

Force68 · 28 Окт 2013

То есть как выкинуть из результатов парсинга строчку короче определеннго количества символов?
на скрине это

Forbidden · 28 Окт 2013

На странице документации http://a-parser.com/wiki/html-textextractor/ ссылку на которую дали несколько постами выше написано:
"Min block length 50 Минимальная длинна текстового блока в символах"

Пример: парсим блоки длиной минимум 200 символов, разделяем отдельный блоки через ------ используя Result format:

Force68 · 28 Окт 2013

Спасибо большое.

groov · 4 Мар 2014

Forbidden сказал(а):
Forbidden сказал(а):

возможно в 2 этапа:
1. парсим ссылки на интересующие страницы через парсер SE::Google
2. парсим контент с этих ссылок с помощью парсера текста HTML::TextExtractor, будет текст очищенный от мусора, минимальную длину блока можно задать в настройках

Нажмите, чтобы раскрыть...

А как объединить эти 2 этапа в одном задании?
Т.е. на входе список ключевых слов, а на выходе текст для каждого ключевого слова в отдельном файле
или все в одном файле, но по шаблону, например:
"кейворд1|текст соответствующий кейворду1"
"кейворд2|текст соответствующий кейворду2"
и т.д.

Forbidden · 4 Мар 2014

в одном задании - никак, для этого и написано что нужно 2 этапа
зависимость кейворд - текст можно реализовать так:
сохранять key|link на первом этапе
на втором использовать Query Builder для разделения запроса на кей и ссылку

Sergey_1 · 20 Мар 2015

Forbidden сказал(а):
зависимость кейворд - текст можно реализовать так:
сохранять key|link на первом этапе
на втором использовать Query Builder для разделения запроса на кей и ссылку

Подскажите пожалуйста как сделать

1-как создать запрос из файла результатов вида
$query|$link?
2-как сохранить результаты в разные файлы с названием кей и спаршенному тексту по этому кею внутри?

Forbidden · 20 Мар 2015

Sergey_1 сказал(а):
Подскажите пожалуйста как сделать

Sergey_1 · 20 Мар 2015

благодарю

Парсер текста

Force68

A-Parser Enterprise License

Forbidden

Administrator

Force68

A-Parser Enterprise License

Force68

A-Parser Enterprise License

Support

Administrator

Force68

A-Parser Enterprise License

Force68

A-Parser Enterprise License

Forbidden

Administrator

Force68

A-Parser Enterprise License

Force68

A-Parser Enterprise License

Forbidden

Administrator

Force68

A-Parser Enterprise License

groov

A-Parser Pro License

Forbidden

Administrator

Sergey_1

A-Parser Pro License

Forbidden

Administrator

Sergey_1

A-Parser Pro License

О нас

Быстрая навигация

Соцсети

Поддержка