Пробую использовать TextExtractor для парсинга текста по списку урлов. В постобработке поставил очистку от тегов html. В настройках парсера указал минимальный блок в 500 символов, поставил определять кодировку. Но в результате все равно получаю вот такого плана текст: $("input.search-input").bind("focus",{text:search_input_curr_value},captioned_input_focus); Выборг Брянск О сайте border-collapse:separate !important; Нальчик font-size:13px !important; callback(); Журнал| Софрино Люберцы 18 часов назад else search_autocomplete_pad.hide(); Харьков Руза +7 916 245 34 00, .ad-ph-pad { search_obj.html(text_str.replace(search_case_string, ("" + search_case_string + ""))); Трубная return false; var addate = new Date(); И тексты не в UTF-8 тоже в файле присутствуют. Как можно полечить это безобразие?
Необходим пример конкретной ссылки, в любом случае это могло быть обычным текстом на странице По поводу utf-8, парсер везде использует utf-8, если в результате выходит отличная кодировка то причина либо в невозможности определить кодировку текста либо в "битости" кодировки Дополнительно существует опция Detect charset on content позволяющая более точно определять кодировку
Detect Charset включен - не помогает. А по конкретной ссылке, никак не могу понять как задать чтоб выводилась ссылка а ниже данные с нее. Чтоб проверить откуда текст. Задавал так $query.query\n===============\n$p1.data\n
Странно так тоже не получается. Какой-то бред получаю. Взял уже один урл для проверки. http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy Может связано с предварительной обработкой. Вот мои настройки В результате получаю в середине текста: Стальные хромированные крылья у всех колес 8 (495) 545-60-48 / 8 (916) 183-32-71 ##########~~~~~####### if (this.state.shouldvisible && !this.state.isvisible){
Непонятно почему выводишь $data Текст храниться в массиве $texts, верный формат: $query\n--------\n$p1.texts.format('$text\n') Соответственно Result builder тоже составлен не верно
Да просто не понятно что где хранится и как что выводить. Где можно почитать о TextExtractor и всех его полях? И если не трудно покажи пожалуйста как использовать Result builder для фильтрации данных в $p1.texts
Почитал. Вроде чуток прояснилось но все равно не получается с Result Builder-ом. Вот так выставил настройки А в файл выводится только: http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy #####~~~~~##### Что я опять делаю не так?
Да не понял логику. Я думал мы указываем массив который надо почистить и опять сохраняем с таким же именем для последующей обработки. Спасибо. Так текст уже появился. Но выдает малюсенький кусочек текста хотя там на сайте куча текста в больших блоках. Возвращает: http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy выдерживает нагрузку 50кг колеса ПВХ, мягкие и бесшумные размеры велосипеда: 55х36х89см вес велосипеда: 5,5кг - 300р #####~~~~~##### да и строка #####~~~~~##### по идее должна была после урла быть
мы так и делаем, в массив texts в переменную text, ты же зачем то поменял имя переменной минимальный размер текста настраивается в настройках если ты правильно формат задаешь она будет после урла, смотри внимательно мой скрин
Спасибо, наконец дошло Ну так минимальный это же значит все что меньше не брать? Почему же он большее количество не забирает? Уже увеличил Max body size - не помогает точно так же задал:
предполагаю это эффект от включенной уникализации результатов по строке непонятно что именно не помогает, вот на скрине видно что он парсит все блоки, и большие и маленькие, при дефолтных настройках
Странно. А у меня вот так на дефолтных. Антивирус не стоит чтоб блочил. Не пойму в чем проблема Без прокси: