1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Ошибка Net::HTTP

Тема в разделе "Отклоненные задачи", создана пользователем HoneyMoney, 10 мар 2017.

  1. HoneyMoney

    HoneyMoney A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    28 мар 2016
    Сообщения:
    17
    Симпатии:
    2
    При включенном Detect Charset on Content неправильно парсятся страницы (html-код) некоторых сайтов, конкретно на этом http://www.androeed.ru/files/instagram.html

    Проблема относится к русским буквам. Слово "Присоединяйтесь" выглядит как ѕрисоедин€йтесь и т.д. При чем некоторые буквы выборочно крякозябрятся: фотографи€ми, ƒелайте, попул€рное

    Если отключить Detect Charset on Content, то русский текст парсится правильно, кодировка не бьется.

    Версия 1.1.773
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    такое происходит из за того что кодировка текста не совсем верно определяется

    сейчас если галочка снята то сначала кодировка определяется по заголовкам и meta, и если она не найдена то определять по контенту, попробуй на больших объемах без галочки парсить, должно быть лучше по качеству
     

Поделиться этой страницей