Здравствуйте уважаемая поддержка, что делать если польская текстовка парсится так https://goo.gl/9EuVj4 не вся, но текста такого много, какие регулярки писать чтобы было по человечески....???
Парсим ссылки по ключу "Bank pko sa kredyty głuchołazy" Получаем ссылки: Bank pko sa kredyty głuchołazy|http://szukaj.chwilowkibezbik.net/bank-pko-sa-kredyty/glucholazy Bank pko sa kredyty głuchołazy|http://www.pkobp.pl/poi/?poi_id=1315 Bank pko sa kredyty głuchołazy|http://www.pekao.com.pl/indywidualni/Pozyczka_Kredyt/ Bank pko sa kredyty głuchołazy|http://www.money.pl/bankomaty/bank-...row-warszawy-9a-supermarket-pepco-a28877.html Bank pko sa kredyty głuchołazy|http://www.money.pl/bankomaty/pko-bank-polski-glucholazy-rynek-22-a886.html Bank pko sa kredyty głuchołazy|http://www.zumi.pl/1510158,PKO_Bank_Polski__Oddzial_1_w_Glucholazach,Glucholazy,firma.html Bank pko sa kredyty głuchołazy|http://www.locomobit.pl/vc/vcards/1070_GLUCHOLAZY_Bank_PKO_SA.html Bank pko sa kredyty głuchołazy|http://www.banki.pl/mapa-strony-banki/lista-bankow-glucholazy Bank pko sa kredyty głuchołazy|http://www.dla.fikas.pl/Glucholazy/bank-pko,Glucholazy/ Bank pko sa kredyty głuchołazy|http://panoramafirm.pl/kredyty_i_finansowanie/opolskie,nyski,głuchołazy Потом эти ссылки отдаем на парсинг текста с включенным детектом кодировки. Ссылка на пресет Получаем текст: http://i9.pixs.ru/storage/0/2/8/imagepng_2035392_22453028.png Видно что детект кодировки не срабатывает.
Вот что мне ответил Topper Пожалуйста поточнее, "detect encoding" нет, есть https://goo.gl/J1HG4q парсит текст тоже самое что и было в ProParser, https://goo.gl/9EuVj4 подскажите что делать, к кому обращаться, к Вам или A-Parser support. 23.06.2016 18:20:17 Тех. Поддержка Значит детект кодировки включен, но работает в апарсере неправильно. Вероятно там такая же проблема что и была у меня. Нужно дать адрес страницы в ТП Апарсера и показать что при включенном детекте кодирвки она детектится криво Вот адрес страницы как пример http://www.pierwszy.net/kredyt1/index.php?p=3target= ключевик "kredyty orange" Знал бы как сбрасывать сбросил бы, Я ПРОСТОЙ ЮЗЕР, и только начинаю изучать все подобные вещи....., в технических вопросах пока не разобрался!
В этом и вся суть. Без детекта все работает: С детектом получаем битую кодировку: По-умолчанию Detect charset on content отключен и парсер берет кодировку из мета тегов. Но если в мета тегах не указана кодировка, то стоит включать опцию определения кодировки по контенту (Detect charset on content). Держать ее постоянно включенной врятли самый лучший вариант, т.к. кодировка не всегда может правильно определиться на основе контента, что и демонстрирует выше приведенный пример. О экспорте заданий описано в Документации: http://a-parser.com/wiki/add-task/
Ну вот, а мне то что делать? Читать документацию, потом учить C#, и переписывать LAP, где истинна, покупал A-Parser ради LAP, 400 баксов в ЖО...У? Пока кто то косит бабло я его теряю..... P.S. - может я не прав, и зря поднимаю вонь!!! Понимаю что (а-парсер ни при чом) - без иронии, это Я кривой!!! Интересно кто мне продлит доступ к обновлениям А-парсера, время то идёт, а софт то не работает как нужно (из коробки)
То есть для массового парсинга нужно для каждого сайта руками зайти сначала и посмотреть правильные ли метатеги у него, и потом значит галочку поставить или снять. И так по каждому сайту?
А в чем сложность просто снять галку возле Detect charset on content ? Ну и немножко разобраться... Нет. Достаточно не включать Detect charset on content. Данная опция реализована как решение для тех случаев, когда на дефолте не определяется кодировка. И как показывает практика нужна не так часто...
Эта настройка включена не из любопыства. Ставить эта галку посоветовал Фобиден для решения такой же проблемы, а именно для лечения закорючек
Насколько я понимаю, он посоветовал включить ее как раз для такого случая Но там нигде не сказано, что она должна быть включена всегда для всех сайтов...
Ее нельзя задавать для части сайтов. Она в пресете либо включается для всех, либо выключается для всех. Тут явный баг детекта кодировки. И с детектом по контенту подглючивает как сейчас видно и без детекта по контенту подглючивает как показывал ранее.
Если вы считаете это багом - создавайте задачу: http://a-parser.com/forum/issues/ И вернемся к началу темы. Был вопрос Ответ: Отключите Detect charset on content.
Так что я в пролёте, или меняем направление, на другие языки, уверен что такое же будет и с немецким и т.д. кроме наверное великого русского и английского! Жаль время просрано....
Anatoliy, может под польский язык не будет проблем при выключенном детекте кодировок по контенту. Выключайте в пресете эту опцию, как советуют. Если опять полезут закарючки, то тогда уже регулярки доп.очистки применим в а-парсере. Тех.поддержка наверняка не откажет и поможет их добавить в задание.
Спасибо большое!, будем пробовать все варианты., хотелось бы чтобы комбайн работал как швейцарские часы!!!
Ошибка исправлена не полностью так как в самом пресете парсятся ещё и title так вот что выходит https://goo.gl/MOJ1q7
Хоть апать тему вроде и не красиво, но я всё же осмелюсь, так как проблема остаётся не решенной и никто даже не реагирует Ну хоть потрольте чтоли!!!