Как сделать парсинг и скан сайтов в одном пресете

StreamK · 21 Июн 2016

Здравствуйте.

Можно ли в одном пресете, указать только ссылки на сайты, а далее а-парсер сам просканирует страницы и вытащит текст.
Если не затруднит распишите как это сделать.

Support · 22 Июн 2016

Добрый день.
Можно и довольно просто. Нужно использовать одновременно 2 парсера:

HTML::LinkExtractor и

HTML::TextExtractor. Таким образом первый будет отвечать за проход по всем страницам в глубину, а второй - за текст.
Самый простой вариант реализации выглядит так:

vipuncle · 22 Июн 2016

А возможно ли сразу разбить текст на части, например по 20 символов.

Support · 22 Июн 2016

Да, Конструктором результатов:

vipuncle · 22 Июн 2016

Нарезал данным методом фраз, хотел скормить парсеру, но увы "Error: Queries file must be in UTF-8" , а файл получился большой и как его щас перевернуть в UTF-8 не понятно

Почему парсер не может перекодировать в UTF-8 ?

Support · 22 Июн 2016

Сбросьте (можно в личку) ваше задание и используемые запросы - я проверю. Дело в том, что парсер работает только с UTF-8 без BOM, и только в этой кодировке сохраняет результаты. Поэтому очень странно, что файл, полученный в одном задании, не подходит из-за кодировки в другом.

Как сделать парсинг и скан сайтов в одном пресете

StreamK

A-Parser Pro License

Support

Administrator

vipuncle

A-Parser Pro License

Support

Administrator

vipuncle

A-Parser Pro License

Support

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка