Как сделать парсинг и скан сайтов в одном пресете

  • Автор темы Автор темы StreamK
  • Дата начала Дата начала

StreamK

A-Parser Pro License
A-Parser Pro
Здравствуйте.

Можно ли в одном пресете, указать только ссылки на сайты, а далее а-парсер сам просканирует страницы и вытащит текст.
Если не затруднит распишите как это сделать.
 
Добрый день.
Можно и довольно просто. Нужно использовать одновременно 2 парсера: HTML::LinkExtractor HTML::LinkExtractor и HTML::TextExtractor HTML::TextExtractor. Таким образом первый будет отвечать за проход по всем страницам в глубину, а второй - за текст.
Самый простой вариант реализации выглядит так:
323123123.png
 
А возможно ли сразу разбить текст на части, например по 20 символов.
 
Нарезал данным методом фраз, хотел скормить парсеру, но увы "Error: Queries file must be in UTF-8" , а файл получился большой и как его щас перевернуть в UTF-8 не понятно :(
Почему парсер не может перекодировать в UTF-8 ?
 
Сбросьте (можно в личку) ваше задание и используемые запросы - я проверю. Дело в том, что парсер работает только с UTF-8 без BOM, и только в этой кодировке сохраняет результаты. Поэтому очень странно, что файл, полученный в одном задании, не подходит из-за кодировки в другом.
 
Назад
Верх