Собственно, в сабж. Результат SE::Google::Suggest обрабатывается в стороннем софте, который крашится из-за спецсимволов. Можно ли: 1. Сделать так, чтобы парсер не выдавал подобные спецсимволы? 2. Перевести такие спецсимволы в нормальный вид? 3. Удалить в текстовом файле строки, содержащие подобные спецсимволы?
Добрый день. Нужны запросы, на которых получаются такие результаты (а также пресет, если настройки отличаются от дефолтных). Также, уточните, какая у вас версия парсера.
Не знаю, с какого запроса конкретно, запросов несколько было. Спойлер: Запросы ультимей {az:а:яя} ультима онлайн {az:а:яя} шард утопия {az:а:яя} пиратка {az:а:яя} пиратский сервер {az:а:яя} пират {az:а:яя} убийца {az:а:яя} ассасин {az:а:яя} крид {az:а:яя} ассассинс крид {az:а:яя} гта {az:а:яя} читы {az:а:яя} коды {az:а:яя} журнал {az:а:яя} стойка {az:а:яя} гайд {az:а:яя} гид {az:а:яя} помощь в игре {az:а:яя} вопросы новичков {az:а:яя} амулет {az:а:яя} защитный периметр {az:а:яя} русалка {az:а:яя} комикон {az:а:яя} игромир {az:а:яя} геймер {az:а:яя} игрок {az:а:яя} ремейк {az:а:яя} Спойлер: Настройки Версия - крайняя 1.2.84
Получается 28512 запросов + парсинг в глубину до 3-го уровня Для того, чтобы мы могли воспроизвести проблему, нужен более четкий путь ее воспроизведения. И для этого нужно несколько запросов, т.к. парсить и анализировать результаты по нескольким сотням тысяч запросов проблематично. По всей видимости, данный результат выдается по запросу Код: adafruit ultimate gps breakout - 66 И проблем не наблюдается: Проверьте, возможно файл результата открыт не в той кодировке (парсер сохраняет результаты в UTF-8 без BOM). Если нужно отбрасывать подсказки, к примеру содержащие не английские буквы, то это можно сделать с помощью фильтров и регулярных выражений Спойлер: Пример
ультимей {az:а:яя} - этот тоже, на 9099 строке и еще дальше несколько таких есть символов. В Notepad++ просто UTF8 и UTF8 без BOM - все равно есть эти символы, открываю в стандартном блокноте - там вообще почему-то каша.
https://www.sendspace.com/file/jhap75 - оригинальный файл, который парсер создал. Строка 9099. в emEditor тоже символ глючный. Смена кодировок не помогает исправить это.
Обновитесь на последнюю бету (1.2.133) и попробуйте спарсить еще раз. Возможно данная проблема уже была исправлена.