1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Ошибка [1.2.907] Ошибка определения кодировки в JS парсерах

Тема в разделе "1.2.912", создана пользователем fancy27, 4 июн 2020.

  1. fancy27

    fancy27 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    19 янв 2018
    Сообщения:
    4
    Симпатии:
    1
    Здравствуйте!

    Уже не раз замечал, что в JS парсерах нередки случаи, когда неверно определяется кодировка на странице, из-за чего парсятся кракозябры.

    Это можно легко проверить, например, на этом парсере - https://a-parser.com/resources/28/

    Примеры страниц, на которых можно наблюдать ошибочное определение кодировки:
    Код:
    https://advokatsidorov.ru/sudebnye-ekspertizy-v-ugolovnom-processe.html
    https://paperdoc.ru/documents/doverennosti/doverennost-na-poluchenie-tovara
    http://ibis-sup.ru/index.php?catid=12:2009-10-02-21-32-45&id=85:-2011-&Itemid=38&option=com_content&view=article
    http://beg-dorozhka.ru/pokupka/stoit-li.html
    
    При этом парсеры Net::HTTP, HTML::TextExtractor кодировку определяют верно.

    Можно ли исправить данную проблему в JS парсерах?
     
    #1 fancy27, 4 июн 2020
    Последнее редактирование модератором: 6 июн 2020
    Forbidden нравится это.
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    исправлено

    Код:
    http://ibis-sup.ru/index.php?catid=12:2009-10-02-21-32-45&id=85:-2011-&Itemid=38&option=com_content&view=article
    
    Данный случай более сложный(он также не определяется корректно через Net::HTTP), для его определения необходимо использовать режим auto-html-detect
     
    fancy27 нравится это.

Поделиться этой страницей