Ошибка [1.2.907] Ошибка определения кодировки в JS парсерах

fancy27 · 4 июн 2020

Здравствуйте!

Уже не раз замечал, что в JS парсерах нередки случаи, когда неверно определяется кодировка на странице, из-за чего парсятся кракозябры.

Это можно легко проверить, например, на этом парсере - https://a-parser.com/resources/28/

Примеры страниц, на которых можно наблюдать ошибочное определение кодировки:
Код:
https://advokatsidorov.ru/sudebnye-ekspertizy-v-ugolovnom-processe.html
https://paperdoc.ru/documents/doverennosti/doverennost-na-poluchenie-tovara
http://ibis-sup.ru/index.php?catid=12:2009-10-02-21-32-45&id=85:-2011-&Itemid=38&option=com_content&view=article
http://beg-dorozhka.ru/pokupka/stoit-li.html
При этом парсеры Net::HTTP, HTML::TextExtractor кодировку определяют верно.

Можно ли исправить данную проблему в JS парсерах?

Forbidden · 6 июн 2020

исправлено
Код:
http://ibis-sup.ru/index.php?catid=12:2009-10-02-21-32-45&id=85:-2011-&Itemid=38&option=com_content&view=article
Данный случай более сложный(он также не определяется корректно через Net::HTTP), для его определения необходимо использовать режим auto-html-detect

Ошибка [1.2.907] Ошибка определения кодировки в JS парсерах

fancy27 A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Ошибка [1.2.907] Ошибка определения кодировки в JS парсерах

fancy27 A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

fancy27 A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise