Здравствуйте. Можно ли в одном пресете, указать только ссылки на сайты, а далее а-парсер сам просканирует страницы и вытащит текст. Если не затруднит распишите как это сделать.
Добрый день. Можно и довольно просто. Нужно использовать одновременно 2 парсера: HTML::LinkExtractor и HTML::TextExtractor. Таким образом первый будет отвечать за проход по всем страницам в глубину, а второй - за текст. Самый простой вариант реализации выглядит так:
Нарезал данным методом фраз, хотел скормить парсеру, но увы "Error: Queries file must be in UTF-8" , а файл получился большой и как его щас перевернуть в UTF-8 не понятно Почему парсер не может перекодировать в UTF-8 ?
Сбросьте (можно в личку) ваше задание и используемые запросы - я проверю. Дело в том, что парсер работает только с UTF-8 без BOM, и только в этой кодировке сохраняет результаты. Поэтому очень странно, что файл, полученный в одном задании, не подходит из-за кодировки в другом.