Очищаю строки перед парсингом регуляркой Код: x{0009}\x{000a}\x{000d}\x{0020}-\x{D7FF}\x{E000}-\x{FFFD} Тогда все отлично парсит. Сделать чтоб апарсер пропускал/удалял/заменял строки/символы. Но не падал.
Код: Jan 26 18:36:19.09982 parser started Jan 26 18:36:20.06194 starting task 369 Jan 26 18:36:21.29425 loading before not loaded iterator Jan 26 18:36:21.29806 resuming results/1.txt at 8844 line Malformed UTF-8 character (UTF-16 surrogate 0xdeca) in transliteration (tr///) at build/core.to_build.pl line 16666, <$__ANONIO__> line 8866. Jan 26 18:37:54.83579 task 369 paused malformed or illegal unicode character in string [...バス..], cannot convert to JSON at build/core.to_build.pl line 23403, <$__ANONIO__> line 8889. Jan 26 18:37:54.85027 [Master] end called, pid 22368 DESTROY created new reference to dead object 'Parser::Child::ResultsProcessor' during global destruction. OK, BYE! | at (eval 299) line 1. Парсинг линков с гугла. Все файлы почистил, конкретно сейчас файл с запросами показать не могу. На котором падает.
Падение не от файла, а когда доходит до определенной строки где буквы в битой кодировки. Постараюсь найти и скинуть в ЛС.