Ошибка [1.1.575] Неизвестные мне символы в тексте

Anatoliy · 23 июн 2016

Здравствуйте уважаемая поддержка, что делать если польская текстовка парсится так https://goo.gl/9EuVj4 не вся, но текста такого много, какие регулярки писать чтобы было по человечески....???

Support · 23 июн 2016

Добрый день.
Сбросьте код вашего задания и запрос, по которому отдается такой текст (можно в личку).

Topper · 23 июн 2016

Парсим ссылки по ключу "Bank pko sa kredyty głuchołazy"

Получаем ссылки:
Bank pko sa kredyty głuchołazy|http://szukaj.chwilowkibezbik.net/bank-pko-sa-kredyty/glucholazy
Bank pko sa kredyty głuchołazy|http://www.pkobp.pl/poi/?poi_id=1315
Bank pko sa kredyty głuchołazy|http://www.pekao.com.pl/indywidualni/Pozyczka_Kredyt/
Bank pko sa kredyty głuchołazy|http://www.money.pl/bankomaty/bank-...row-warszawy-9a-supermarket-pepco-a28877.html
Bank pko sa kredyty głuchołazy|http://www.money.pl/bankomaty/pko-bank-polski-glucholazy-rynek-22-a886.html
Bank pko sa kredyty głuchołazy|http://www.zumi.pl/1510158,PKO_Bank_Polski__Oddzial_1_w_Glucholazach,Glucholazy,firma.html
Bank pko sa kredyty głuchołazy|http://www.locomobit.pl/vc/vcards/1070_GLUCHOLAZY_Bank_PKO_SA.html
Bank pko sa kredyty głuchołazy|http://www.banki.pl/mapa-strony-banki/lista-bankow-glucholazy
Bank pko sa kredyty głuchołazy|http://www.dla.fikas.pl/Glucholazy/bank-pko,Glucholazy/
Bank pko sa kredyty głuchołazy|http://panoramafirm.pl/kredyty_i_finansowanie/opolskie,nyski,głuchołazy

Потом эти ссылки отдаем на парсинг текста с включенным детектом кодировки. Ссылка на пресет

Получаем текст: http://i9.pixs.ru/storage/0/2/8/imagepng_2035392_22453028.png

Видно что детект кодировки не срабатывает.

Anatoliy · 23 июн 2016

Вот что мне ответил Topper
Пожалуйста поточнее, "detect encoding" нет, есть https://goo.gl/J1HG4q

парсит текст тоже самое что и было в ProParser, https://goo.gl/9EuVj4

подскажите что делать, к кому обращаться, к Вам или A-Parser support.
23.06.2016 18:20:17 Тех. Поддержка
Значит детект кодировки включен, но работает в апарсере неправильно. Вероятно там такая же проблема что и была у меня. Нужно дать адрес страницы в ТП Апарсера и показать что при включенном детекте кодирвки она детектится криво

Вот адрес страницы как пример http://www.pierwszy.net/kredyt1/index.php?p=3target=

ключевик "kredyty orange"

Support сказал(а): ↑

Сбросьте код вашего задания и запрос
Нажмите, чтобы раскрыть...

Знал бы как сбрасывать сбросил бы, Я ПРОСТОЙ ЮЗЕР, и только начинаю изучать все подобные вещи....., в технических вопросах пока не разобрался!

Support · 23 июн 2016

Topper сказал(а): ↑

с включенным детектом кодировки
Нажмите, чтобы раскрыть...

В этом и вся суть. Без детекта все работает:

С детектом получаем битую кодировку:

По-умолчанию Detect charset on content отключен и парсер берет кодировку из мета тегов. Но если в мета тегах не указана кодировка, то стоит включать опцию определения кодировки по контенту (Detect charset on content). Держать ее постоянно включенной врятли самый лучший вариант, т.к. кодировка не всегда может правильно определиться на основе контента, что и демонстрирует выше приведенный пример.

Anatoliy сказал(а): ↑

Знал бы как сбрасывать сбросил бы, Я ПРОСТОЙ ЮЗЕР, и только начинаю изучать все подобные вещи.....
Нажмите, чтобы раскрыть...

О экспорте заданий описано в Документации: http://a-parser.com/wiki/add-task/

Anatoliy · 23 июн 2016

Ну вот, а мне то что делать? Читать документацию, потом учить C#, и переписывать LAP, где истинна, покупал A-Parser ради LAP, 400 баксов в ЖО...У?
Пока кто то косит бабло я его теряю.....

P.S. - может я не прав, и зря поднимаю вонь!!!

Понимаю что (а-парсер ни при чом) - без иронии, это Я кривой!!!

Интересно кто мне продлит доступ к обновлениям А-парсера, время то идёт, а софт то не работает как нужно (из коробки)

Topper · 23 июн 2016

Support сказал(а): ↑

По-умолчанию Detect charset on content отключен и парсер берет кодировку из мета тегов. Но если в мета тегах не указана кодировка, то стоит включать опцию определения кодировки по контенту (Detect charset on content). Держать ее постоянно включенной врятли самый лучший вариант, т.к. кодировка не всегда может правильно определиться на основе контента, что и демонстрирует выше приведенный пример.
Нажмите, чтобы раскрыть...

То есть для массового парсинга нужно для каждого сайта руками зайти сначала и посмотреть правильные ли метатеги у него, и потом значит галочку поставить или снять. И так по каждому сайту?

Support · 23 июн 2016

Anatoliy сказал(а): ↑

Ну вот, а мне то что делать?
Нажмите, чтобы раскрыть...

А в чем сложность просто снять галку возле Detect charset on content ? Ну и немножко разобраться...

Topper сказал(а): ↑

То есть для массового парсинга нужно для каждого сайта руками зайти сначала и посмотреть правильные ли метатеги у него, и потом значит галочку поставить или снять. И так по каждому сайту?
Нажмите, чтобы раскрыть...

Нет. Достаточно не включать Detect charset on content. Данная опция реализована как решение для тех случаев, когда на дефолте не определяется кодировка. И как показывает практика нужна не так часто...

Topper · 23 июн 2016

Support сказал(а): ↑

Нет. Достаточно не включать Detect charset on content. Данная опция реализована как решение для тех случаев, когда на дефолте не определяется кодировка. И как показывает практика нужна не так часто...
Нажмите, чтобы раскрыть...

Эта настройка включена не из любопыства. Ставить эта галку посоветовал Фобиден для решения такой же проблемы, а именно для лечения закорючек

Support · 23 июн 2016

Насколько я понимаю, он посоветовал включить ее как раз для такого случая

Support сказал(а): ↑

когда на дефолте не определяется кодировка
Нажмите, чтобы раскрыть...

Но там нигде не сказано, что она должна быть включена всегда для всех сайтов...

Topper · 23 июн 2016

Support сказал(а): ↑

Но там нигде не сказано, что она должна быть включена всегда для всех сайтов...
Нажмите, чтобы раскрыть...

Ее нельзя задавать для части сайтов. Она в пресете либо включается для всех, либо выключается для всех.
Тут явный баг детекта кодировки. И с детектом по контенту подглючивает как сейчас видно и без детекта по контенту подглючивает как показывал ранее.

Support · 23 июн 2016

Если вы считаете это багом - создавайте задачу: http://a-parser.com/forum/issues/

И вернемся к началу темы. Был вопрос

Здравствуйте уважаемая поддержка, что делать если польская текстовка парсится так https://goo.gl/9EuVj4 не вся, но текста такого много, какие регулярки писать чтобы было по человечески....???
Нажмите, чтобы раскрыть...

Ответ:
Отключите Detect charset on content.

Anatoliy · 23 июн 2016

Topper сказал(а): ↑

И с детектом по контенту подглючивает как сейчас видно и без детекта
Нажмите, чтобы раскрыть...

Так что я в пролёте, или меняем направление, на другие языки, уверен что такое же будет и с немецким и т.д. кроме наверное великого русского и английского!

Жаль время просрано....

Topper · 23 июн 2016

Anatoliy, может под польский язык не будет проблем при выключенном детекте кодировок по контенту.
Выключайте в пресете эту опцию, как советуют. Если опять полезут закарючки, то тогда уже регулярки доп.очистки применим в а-парсере.
Тех.поддержка наверняка не откажет и поможет их добавить в задание.

Anatoliy · 23 июн 2016

Спасибо большое!, будем пробовать все варианты., хотелось бы чтобы комбайн работал как швейцарские часы!!!

Forbidden · 24 июн 2016

Ошибка исправлена в 1.1.575, галочку Detect charset лучше включать

Anatoliy · 26 июн 2016

Forbidden сказал(а): ↑

Ошибка исправлена в 1.1.575
Нажмите, чтобы раскрыть...

Так а текущая версия вроде как 1.1.566, где взять 1.1.575?

Forbidden · 27 июн 2016

Версии A-Parser

Anatoliy · 28 июн 2016

Forbidden сказал(а): ↑

Ошибка исправлена в 1.1.575, галочку Detect charset лучше включать
Нажмите, чтобы раскрыть...

Ошибка исправлена не полностью так как в самом пресете парсятся ещё и title так вот что выходит https://goo.gl/MOJ1q7

Anatoliy · 29 июн 2016

Хоть апать тему вроде и не красиво, но я всё же осмелюсь, так как проблема остаётся не решенной и никто даже не реагирует
Ну хоть потрольте чтоли!!!

Ошибка [1.1.575] Неизвестные мне символы в тексте

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Topper Active Member

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Topper Active Member

Support Administrator
Команда форума A-Parser Enterprise

Topper Active Member

Support Administrator
Команда форума A-Parser Enterprise

Topper Active Member

Support Administrator
Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Topper Active Member

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Ошибка [1.1.575] Неизвестные мне символы в тексте

Anatoliy A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

Topper Active Member

Anatoliy A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License A-Parser Enterprise

Topper Active Member

Support Administrator Команда форума A-Parser Enterprise

Topper Active Member

Support Administrator Команда форума A-Parser Enterprise

Topper Active Member

Support Administrator Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License A-Parser Enterprise

Topper Active Member

Anatoliy A-Parser Enterprise License A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License A-Parser Enterprise

Anatoliy A-Parser Enterprise License A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise

Anatoliy A-Parser Enterprise License
A-Parser Enterprise