Парсинг текста - мусор присутствует, кодировка не определяется

  • Автор темы Автор темы sergeda
  • Дата начала Дата начала

sergeda

A-Parser Enterprise License
A-Parser Enterprise
Пробую использовать TextExtractor для парсинга текста по списку урлов. В постобработке поставил очистку от тегов html. В настройках парсера указал минимальный блок в 500 символов, поставил определять кодировку. Но в результате все равно получаю вот такого плана текст:
$("input.search-input").bind("focus",{text:search_input_curr_value},captioned_input_focus);
Выборг
Брянск
О сайте
border-collapse:separate !important;
Нальчик
font-size:13px !important;
callback();
Журнал|
Софрино
Люберцы
18 часов назад
else search_autocomplete_pad.hide();
Харьков
Руза
+7 916 245 34 00,
.ad-ph-pad {
search_obj.html(text_str.replace(search_case_string, ("" + search_case_string + "")));
Трубная
return false;
var addate = new Date();

И тексты не в UTF-8 тоже в файле присутствуют. Как можно полечить это безобразие?
 
Необходим пример конкретной ссылки, в любом случае это могло быть обычным текстом на странице
По поводу utf-8, парсер везде использует utf-8, если в результате выходит отличная кодировка то причина либо в невозможности определить кодировку текста либо в "битости" кодировки
Дополнительно существует опция Detect charset on content позволяющая более точно определять кодировку
 
Необходим пример конкретной ссылки, в любом случае это могло быть обычным текстом на странице
По поводу utf-8, парсер везде использует utf-8, если в результате выходит отличная кодировка то причина либо в невозможности определить кодировку текста либо в "битости" кодировки
Дополнительно существует опция Detect charset on content позволяющая более точно определять кодировку
Detect Charset включен - не помогает. А по конкретной ссылке, никак не могу понять как задать чтоб выводилась ссылка а ниже данные с нее. Чтоб проверить откуда текст. Задавал так $query.query\n===============\n$p1.data\n
 
просто
$query\n===============\n$p1.data\n
Странно так тоже не получается. Какой-то бред получаю. Взял уже один урл для проверки. http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy Может связано с предварительной обработкой. Вот мои настройки
parser.PNG
В результате получаю в середине текста:
Стальные хромированные крылья у всех колес
8 (495) 545-60-48 / 8 (916) 183-32-71
##########~~~~~#######
if (this.state.shouldvisible && !this.state.isvisible){
 
Непонятно почему выводишь $data
Текст храниться в массиве $texts, верный формат:
$query\n--------\n$p1.texts.format('$text\n')
Соответственно Result builder тоже составлен не верно
 
Непонятно почему выводишь $data
Текст храниться в массиве $texts, верный формат:
$query\n--------\n$p1.texts.format('$text\n')
Соответственно Result builder тоже составлен не верно
Да просто не понятно что где хранится и как что выводить. Где можно почитать о TextExtractor и всех его полях?
И если не трудно покажи пожалуйста как использовать Result builder для фильтрации данных в $p1.texts
 
Да просто не понятно что где хранится и как что выводить. Где можно почитать о TextExtractor и всех его полях?
И если не трудно покажи пожалуйста как использовать Result builder для фильтрации данных в $p1.texts
просто почитай новую документацию http://a-parser.com/wiki/new-index/
 
Что я опять делаю не так?

бездумно меняешь имя переменной, настройки по умолчанию верные, зачем что то свое придумывать?
H9JXt.png
 
бездумно меняешь имя переменной, настройки по умолчанию верные, зачем что то свое придумывать?
Да не понял логику. Я думал мы указываем массив который надо почистить и опять сохраняем с таким же именем для последующей обработки.
Спасибо. Так текст уже появился. Но выдает малюсенький кусочек текста хотя там на сайте куча текста в больших блоках.
Возвращает:
http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy
выдерживает нагрузку 50кг
колеса ПВХ, мягкие и бесшумные
размеры велосипеда: 55х36х89см
вес велосипеда: 5,5кг
- 300р
#####~~~~~#####

да и строка #####~~~~~##### по идее должна была после урла быть :(
 
Я думал мы указываем массив который надо почистить и опять сохраняем с таким же именем для последующей обработки.
мы так и делаем, в массив texts в переменную text, ты же зачем то поменял имя переменной
Но выдает малюсенький кусочек текста хотя там на сайте куча текста в больших блоках.
минимальный размер текста настраивается в настройках

да и строка #####~~~~~##### по идее должна была после урла быть
если ты правильно формат задаешь она будет после урла, смотри внимательно мой скрин
 
мы так и делаем, в массив texts в переменную text, ты же зачем то поменял имя переменной
Спасибо, наконец дошло :)
минимальный размер текста настраивается в настройках
Ну так минимальный это же значит все что меньше не брать? Почему же он большее количество не забирает?
Уже увеличил Max body size - не помогает
если ты правильно формат задаешь она будет после урла, смотри внимательно мой скрин
точно так же задал:
 

Вложения

  • pars.PNG
    pars.PNG
    14,4 КБ · Просмотры: 10
предполагаю это эффект от включенной уникализации результатов по строке :)


Ну так минимальный это же значит все что меньше не брать? Почему же он большее количество не забирает?
Уже увеличил Max body size - не помогает
непонятно что именно не помогает, вот на скрине видно что он парсит все блоки, и большие и маленькие, при дефолтных настройках
MHgFL.png
 
предполагаю это эффект от включенной уникализации результатов по строке :)
непонятно что именно не помогает, вот на скрине видно что он парсит все блоки, и большие и маленькие, при дефолтных настройках
Странно. А у меня вот так на дефолтных. Антивирус не стоит чтоб блочил. Не пойму в чем проблема
pars1.PNG
Без прокси:
pars.PNG
 
Назад
Верх