Парсинг текста - мусор присутствует, кодировка не определяется

sergeda · 14 Май 2014

Пробую использовать TextExtractor для парсинга текста по списку урлов. В постобработке поставил очистку от тегов html. В настройках парсера указал минимальный блок в 500 символов, поставил определять кодировку. Но в результате все равно получаю вот такого плана текст:
$("input.search-input").bind("focus",{text:search_input_curr_value},captioned_input_focus);
Выборг
Брянск
О сайте
border-collapse:separate !important;
Нальчик
font-size:13px !important;
callback();
Журнал|
Софрино
Люберцы
18 часов назад
else search_autocomplete_pad.hide();
Харьков
Руза
+7 916 245 34 00,
.ad-ph-pad {
search_obj.html(text_str.replace(search_case_string, ("" + search_case_string + "")));
Трубная
return false;
var addate = new Date();

И тексты не в UTF-8 тоже в файле присутствуют. Как можно полечить это безобразие?

Forbidden · 14 Май 2014

Необходим пример конкретной ссылки, в любом случае это могло быть обычным текстом на странице
По поводу utf-8, парсер везде использует utf-8, если в результате выходит отличная кодировка то причина либо в невозможности определить кодировку текста либо в "битости" кодировки
Дополнительно существует опция Detect charset on content позволяющая более точно определять кодировку

sergeda · 14 Май 2014

Forbidden сказал(а):
Необходим пример конкретной ссылки, в любом случае это могло быть обычным текстом на странице
По поводу utf-8, парсер везде использует utf-8, если в результате выходит отличная кодировка то причина либо в невозможности определить кодировку текста либо в "битости" кодировки
Дополнительно существует опция Detect charset on content позволяющая более точно определять кодировку

Detect Charset включен - не помогает. А по конкретной ссылке, никак не могу понять как задать чтоб выводилась ссылка а ниже данные с нее. Чтоб проверить откуда текст. Задавал так $query.query\n===============\n$p1.data\n

Forbidden · 14 Май 2014

просто
$query\n===============\n$p1.data\n

sergeda · 14 Май 2014

Forbidden сказал(а):
просто
$query\n===============\n$p1.data\n

Странно так тоже не получается. Какой-то бред получаю. Взял уже один урл для проверки. http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy Может связано с предварительной обработкой. Вот мои настройки

В результате получаю в середине текста:
Стальные хромированные крылья у всех колес
8 (495) 545-60-48 / 8 (916) 183-32-71
##########~~~~~#######
if (this.state.shouldvisible && !this.state.isvisible){

Forbidden · 14 Май 2014

Непонятно почему выводишь $data
Текст храниться в массиве $texts, верный формат:
$query\n--------\n$p1.texts.format('$text\n')
Соответственно Result builder тоже составлен не верно

sergeda · 15 Май 2014

Forbidden сказал(а):
Непонятно почему выводишь $data
Текст храниться в массиве $texts, верный формат:
$query\n--------\n$p1.texts.format('$text\n')
Соответственно Result builder тоже составлен не верно

Да просто не понятно что где хранится и как что выводить. Где можно почитать о TextExtractor и всех его полях?
И если не трудно покажи пожалуйста как использовать Result builder для фильтрации данных в $p1.texts

Forbidden · 15 Май 2014

sergeda сказал(а):
Да просто не понятно что где хранится и как что выводить. Где можно почитать о TextExtractor и всех его полях?
И если не трудно покажи пожалуйста как использовать Result builder для фильтрации данных в $p1.texts

просто почитай новую документацию http://a-parser.com/wiki/new-index/

sergeda · 15 Май 2014

Forbidden сказал(а):
просто почитай новую документацию http://a-parser.com/wiki/new-index/

Спасибо за ссылку, сам не нашел.

sergeda · 15 Май 2014

Почитал. Вроде чуток прояснилось но все равно не получается с Result Builder-ом.
Вот так выставил настройки

А в файл выводится только:
http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy
#####~~~~~#####

Что я опять делаю не так?

Forbidden · 16 Май 2014

sergeda сказал(а):
Что я опять делаю не так?

бездумно меняешь имя переменной, настройки по умолчанию верные, зачем что то свое придумывать?

sergeda · 16 Май 2014

Forbidden сказал(а):
бездумно меняешь имя переменной, настройки по умолчанию верные, зачем что то свое придумывать?

Да не понял логику. Я думал мы указываем массив который надо почистить и опять сохраняем с таким же именем для последующей обработки.
Спасибо. Так текст уже появился. Но выдает малюсенький кусочек текста хотя там на сайте куча текста в больших блоках.
Возвращает:
http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy
выдерживает нагрузку 50кг
колеса ПВХ, мягкие и бесшумные
размеры велосипеда: 55х36х89см
вес велосипеда: 5,5кг
- 300р
#####~~~~~#####

да и строка #####~~~~~##### по идее должна была после урла быть

Forbidden · 16 Май 2014

sergeda сказал(а):
Я думал мы указываем массив который надо почистить и опять сохраняем с таким же именем для последующей обработки.

мы так и делаем, в массив texts в переменную text, ты же зачем то поменял имя переменной

sergeda сказал(а):
Но выдает малюсенький кусочек текста хотя там на сайте куча текста в больших блоках.

минимальный размер текста настраивается в настройках

sergeda сказал(а):
да и строка #####~~~~~##### по идее должна была после урла быть

если ты правильно формат задаешь она будет после урла, смотри внимательно мой скрин

sergeda · 16 Май 2014

Forbidden сказал(а):
мы так и делаем, в массив texts в переменную text, ты же зачем то поменял имя переменной

Спасибо, наконец дошло

Forbidden сказал(а):
минимальный размер текста настраивается в настройках

Ну так минимальный это же значит все что меньше не брать? Почему же он большее количество не забирает?
Уже увеличил Max body size - не помогает

Forbidden сказал(а):
если ты правильно формат задаешь она будет после урла, смотри внимательно мой скрин

точно так же задал:

Forbidden · 16 Май 2014

предполагаю это эффект от включенной уникализации результатов по строке

sergeda сказал(а):
Ну так минимальный это же значит все что меньше не брать? Почему же он большее количество не забирает?
Уже увеличил Max body size - не помогает

непонятно что именно не помогает, вот на скрине видно что он парсит все блоки, и большие и маленькие, при дефолтных настройках

sergeda · 16 Май 2014

Forbidden сказал(а):
предполагаю это эффект от включенной уникализации результатов по строке
непонятно что именно не помогает, вот на скрине видно что он парсит все блоки, и большие и маленькие, при дефолтных настройках

Странно. А у меня вот так на дефолтных. Антивирус не стоит чтоб блочил. Не пойму в чем проблема

Без прокси:

Forbidden · 16 Май 2014

sergeda сказал(а):
Странно. А у меня вот так на дефолтных. Антивирус не стоит чтоб блочил. Не пойму в чем проблема

Стукни мне в icq или skype с тимвьювером - посмотрим

sergeda · 20 Май 2014

Спасибо. Разобрались

Парсинг текста - мусор присутствует, кодировка не определяется

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Вложения

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

О нас

Быстрая навигация

Соцсети

Поддержка