SE::Google::Suggest парсит спец символы (типа xE4), из-за них крашит другой софт.

vaulroon

A-Parser Pro License
A-Parser Pro
Собственно, в сабж. Результат SE::Google::Suggest обрабатывается в стороннем софте, который крашится из-за спецсимволов.
7ARxPxO-SV2C_3ISn8_bpg.png

Можно ли:
1. Сделать так, чтобы парсер не выдавал подобные спецсимволы?
2. Перевести такие спецсимволы в нормальный вид?
3. Удалить в текстовом файле строки, содержащие подобные спецсимволы?
 
Добрый день.
Нужны запросы, на которых получаются такие результаты (а также пресет, если настройки отличаются от дефолтных).
Также, уточните, какая у вас версия парсера.
 
Добрый день.
Нужны запросы, на которых получаются такие результаты (а также пресет, если настройки отличаются от дефолтных).
Также, уточните, какая у вас версия парсера.
Не знаю, с какого запроса конкретно, запросов несколько было.

ультимей {az:а:яя}
ультима онлайн {az:а:яя}
шард утопия {az:а:яя}
пиратка {az:а:яя}
пиратский сервер {az:а:яя}
пират {az:а:яя}
убийца {az:а:яя}
ассасин {az:а:яя}
крид {az:а:яя}
ассассинс крид {az:а:яя}
гта {az:а:яя}
читы {az:а:яя}
коды {az:а:яя}
журнал {az:а:яя}
стойка {az:а:яя}
гайд {az:а:яя}
гид {az:а:яя}
помощь в игре {az:а:яя}
вопросы новичков {az:а:яя}
амулет {az:а:яя}
защитный периметр {az:а:яя}
русалка {az:а:яя}
комикон {az:а:яя}
игромир {az:а:яя}
геймер {az:а:яя}
игрок {az:а:яя}
ремейк {az:а:яя}

7s4l1cC0QSmCGSxc3Ida1A.png

Версия - крайняя 1.2.84
 
Получается 28512 запросов + парсинг в глубину до 3-го уровня :)
Для того, чтобы мы могли воспроизвести проблему, нужен более четкий путь ее воспроизведения. И для этого нужно несколько запросов, т.к. парсить и анализировать результаты по нескольким сотням тысяч запросов проблематично.

По всей видимости, данный результат выдается по запросу
Код:
adafruit ultimate gps breakout - 66
И проблем не наблюдается:
0np61_180219124130.png


Проверьте, возможно файл результата открыт не в той кодировке (парсер сохраняет результаты в UTF-8 без BOM).

Если нужно отбрасывать подсказки, к примеру содержащие не английские буквы, то это можно сделать с помощью фильтров и регулярных выражений
p3f8h_180219125028.png
 
Последнее редактирование:
ультимей {az:а:яя} - этот тоже, на 9099 строке и еще дальше несколько таких есть символов.
В Notepad++ просто UTF8 и UTF8 без BOM - все равно есть эти символы, открываю в стандартном блокноте - там вообще почему-то каша.
DzbqbQP7QrycnNZ0ybRzvw.png
 
Получается 28512 запросов + парсинг в глубину до 3-го уровня :)
Для того, чтобы мы могли воспроизвести проблему, нужен более четкий путь ее воспроизведения. И для этого нужно несколько запросов, т.к. парсить и анализировать результаты по нескольким сотням тысяч запросов проблематично.

По всей видимости, данный результат выдается по запросу
Код:
adafruit ultimate gps breakout - 66
И проблем не наблюдается:
0np61_180219124130.png


Проверьте, возможно файл результата открыт не в той кодировке (парсер сохраняет результаты в UTF-8 без BOM).

Если нужно отбрасывать подсказки, к примеру содержащие не английские буквы, то это можно сделать с помощью фильтров и регулярных выражений
p3f8h_180219125028.png
https://www.sendspace.com/file/jhap75 - оригинальный файл, который парсер создал.
Строка 9099. в emEditor тоже символ глючный. Смена кодировок не помогает исправить это. :(
 
Обновитесь на последнюю бету (1.2.133) и попробуйте спарсить еще раз. Возможно данная проблема уже была исправлена.
 
Назад
Верх