1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Ошибка [1.1.575] Неизвестные мне символы в тексте

Тема в разделе "1.1.582", создана пользователем Anatoliy, 23 июн 2016.

  1. Anatoliy

    Anatoliy A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2016
    Сообщения:
    48
    Симпатии:
    10
    Здравствуйте уважаемая поддержка, что делать если польская текстовка парсится так https://goo.gl/9EuVj4 не вся, но текста такого много, какие регулярки писать чтобы было по человечески....???
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Добрый день.
    Сбросьте код вашего задания и запрос, по которому отдается такой текст (можно в личку).
     
  3. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Парсим ссылки по ключу "Bank pko sa kredyty głuchołazy"

    Получаем ссылки:
    Bank pko sa kredyty głuchołazy|http://szukaj.chwilowkibezbik.net/bank-pko-sa-kredyty/glucholazy
    Bank pko sa kredyty głuchołazy|http://www.pkobp.pl/poi/?poi_id=1315
    Bank pko sa kredyty głuchołazy|http://www.pekao.com.pl/indywidualni/Pozyczka_Kredyt/
    Bank pko sa kredyty głuchołazy|http://www.money.pl/bankomaty/bank-...row-warszawy-9a-supermarket-pepco-a28877.html
    Bank pko sa kredyty głuchołazy|http://www.money.pl/bankomaty/pko-bank-polski-glucholazy-rynek-22-a886.html
    Bank pko sa kredyty głuchołazy|http://www.zumi.pl/1510158,PKO_Bank_Polski__Oddzial_1_w_Glucholazach,Glucholazy,firma.html
    Bank pko sa kredyty głuchołazy|http://www.locomobit.pl/vc/vcards/1070_GLUCHOLAZY_Bank_PKO_SA.html
    Bank pko sa kredyty głuchołazy|http://www.banki.pl/mapa-strony-banki/lista-bankow-glucholazy
    Bank pko sa kredyty głuchołazy|http://www.dla.fikas.pl/Glucholazy/bank-pko,Glucholazy/
    Bank pko sa kredyty głuchołazy|http://panoramafirm.pl/kredyty_i_finansowanie/opolskie,nyski,głuchołazy

    Потом эти ссылки отдаем на парсинг текста с включенным детектом кодировки. Ссылка на пресет

    Получаем текст: http://i9.pixs.ru/storage/0/2/8/imagepng_2035392_22453028.png

    Видно что детект кодировки не срабатывает.
     
    Anatoliy нравится это.
  4. Anatoliy

    Anatoliy A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2016
    Сообщения:
    48
    Симпатии:
    10
    Вот что мне ответил Topper
    Пожалуйста поточнее, "detect encoding" нет, есть https://goo.gl/J1HG4q


    парсит текст тоже самое что и было в ProParser, https://goo.gl/9EuVj4

    подскажите что делать, к кому обращаться, к Вам или A-Parser support.
    23.06.2016 18:20:17 Тех. Поддержка
    Значит детект кодировки включен, но работает в апарсере неправильно. Вероятно там такая же проблема что и была у меня. Нужно дать адрес страницы в ТП Апарсера и показать что при включенном детекте кодирвки она детектится криво

    Вот адрес страницы как пример http://www.pierwszy.net/kredyt1/index.php?p=3target=

    ключевик "kredyty orange"

    Знал бы как сбрасывать сбросил бы, Я ПРОСТОЙ ЮЗЕР, и только начинаю изучать все подобные вещи....., в технических вопросах пока не разобрался!
     
  5. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    В этом и вся суть. Без детекта все работает:
    [​IMG]

    С детектом получаем битую кодировку:
    [​IMG]

    По-умолчанию Detect charset on content отключен и парсер берет кодировку из мета тегов. Но если в мета тегах не указана кодировка, то стоит включать опцию определения кодировки по контенту (Detect charset on content). Держать ее постоянно включенной врятли самый лучший вариант, т.к. кодировка не всегда может правильно определиться на основе контента, что и демонстрирует выше приведенный пример.

    О экспорте заданий описано в Документации: http://a-parser.com/wiki/add-task/
     
  6. Anatoliy

    Anatoliy A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2016
    Сообщения:
    48
    Симпатии:
    10
    Ну вот, а мне то что делать? Читать документацию, потом учить C#, и переписывать LAP, где истинна, покупал A-Parser ради LAP, 400 баксов в ЖО...У?
    Пока кто то косит бабло я его теряю.....

    P.S. - может я не прав, и зря поднимаю вонь!!!

    Понимаю что (а-парсер ни при чом) - без иронии, это Я кривой!!!

    Интересно кто мне продлит доступ к обновлениям А-парсера, время то идёт, а софт то не работает как нужно (из коробки)
     
  7. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    То есть для массового парсинга нужно для каждого сайта руками зайти сначала и посмотреть правильные ли метатеги у него, и потом значит галочку поставить или снять. И так по каждому сайту?
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    А в чем сложность просто снять галку возле Detect charset on content ? Ну и немножко разобраться...
    Нет. Достаточно не включать Detect charset on content. Данная опция реализована как решение для тех случаев, когда на дефолте не определяется кодировка. И как показывает практика нужна не так часто...
     
  9. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Эта настройка включена не из любопыства. Ставить эта галку посоветовал Фобиден для решения такой же проблемы, а именно для лечения закорючек
     
  10. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Насколько я понимаю, он посоветовал включить ее как раз для такого случая
    Но там нигде не сказано, что она должна быть включена всегда для всех сайтов...
     
  11. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Ее нельзя задавать для части сайтов. Она в пресете либо включается для всех, либо выключается для всех.
    Тут явный баг детекта кодировки. И с детектом по контенту подглючивает как сейчас видно и без детекта по контенту подглючивает как показывал ранее.
     
  12. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Если вы считаете это багом - создавайте задачу: http://a-parser.com/forum/issues/

    И вернемся к началу темы. Был вопрос
    Ответ:
    Отключите Detect charset on content.
     
  13. Anatoliy

    Anatoliy A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2016
    Сообщения:
    48
    Симпатии:
    10
    Так что я в пролёте, или меняем направление, на другие языки, уверен что такое же будет и с немецким и т.д. кроме наверное великого русского и английского!

    Жаль время просрано....
     
  14. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Anatoliy, может под польский язык не будет проблем при выключенном детекте кодировок по контенту.
    Выключайте в пресете эту опцию, как советуют. Если опять полезут закарючки, то тогда уже регулярки доп.очистки применим в а-парсере.
    Тех.поддержка наверняка не откажет и поможет их добавить в задание.
     
    Anatoliy нравится это.
  15. Anatoliy

    Anatoliy A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2016
    Сообщения:
    48
    Симпатии:
    10
    Спасибо большое!, будем пробовать все варианты., хотелось бы чтобы комбайн работал как швейцарские часы!!!
     
  16. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Ошибка исправлена в 1.1.575, галочку Detect charset лучше включать
     
    Topper, Support и btr нравится это.
  17. Anatoliy

    Anatoliy A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2016
    Сообщения:
    48
    Симпатии:
    10
    Так а текущая версия вроде как 1.1.566, где взять 1.1.575?
     
    #17 Anatoliy, 26 июн 2016
    Последнее редактирование: 26 июн 2016
  18. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
  19. Anatoliy

    Anatoliy A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2016
    Сообщения:
    48
    Симпатии:
    10
    Ошибка исправлена не полностью так как в самом пресете парсятся ещё и title так вот что выходит https://goo.gl/MOJ1q7
     
  20. Anatoliy

    Anatoliy A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2016
    Сообщения:
    48
    Симпатии:
    10
    Хоть апать тему вроде и не красиво, но я всё же осмелюсь, так как проблема остаётся не решенной и никто даже не реагирует
    Ну хоть потрольте чтоли!!!
     

Поделиться этой страницей