1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг текста - мусор присутствует, кодировка не определяется

Тема в разделе "Техническая поддержка", создана пользователем sergeda, 14 май 2014.

  1. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Пробую использовать TextExtractor для парсинга текста по списку урлов. В постобработке поставил очистку от тегов html. В настройках парсера указал минимальный блок в 500 символов, поставил определять кодировку. Но в результате все равно получаю вот такого плана текст:
    $("input.search-input").bind("focus",{text:search_input_curr_value},captioned_input_focus);
    Выборг
    Брянск
    О сайте
    border-collapse:separate !important;
    Нальчик
    font-size:13px !important;
    callback();
    Журнал|
    Софрино
    Люберцы
    18 часов назад
    else search_autocomplete_pad.hide();
    Харьков
    Руза
    +7 916 245 34 00,
    .ad-ph-pad {
    search_obj.html(text_str.replace(search_case_string, ("" + search_case_string + "")));
    Трубная
    return false;
    var addate = new Date();

    И тексты не в UTF-8 тоже в файле присутствуют. Как можно полечить это безобразие?
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Необходим пример конкретной ссылки, в любом случае это могло быть обычным текстом на странице
    По поводу utf-8, парсер везде использует utf-8, если в результате выходит отличная кодировка то причина либо в невозможности определить кодировку текста либо в "битости" кодировки
    Дополнительно существует опция Detect charset on content позволяющая более точно определять кодировку
     
  3. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Detect Charset включен - не помогает. А по конкретной ссылке, никак не могу понять как задать чтоб выводилась ссылка а ниже данные с нее. Чтоб проверить откуда текст. Задавал так $query.query\n===============\n$p1.data\n
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    просто
    $query\n===============\n$p1.data\n
     
  5. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Странно так тоже не получается. Какой-то бред получаю. Взял уже один урл для проверки. http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy Может связано с предварительной обработкой. Вот мои настройки
    parser.PNG
    В результате получаю в середине текста:
    Стальные хромированные крылья у всех колес
    8 (495) 545-60-48 / 8 (916) 183-32-71
    ##########~~~~~#######
    if (this.state.shouldvisible && !this.state.isvisible){
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Непонятно почему выводишь $data
    Текст храниться в массиве $texts, верный формат:
    $query\n--------\n$p1.texts.format('$text\n')
    Соответственно Result builder тоже составлен не верно
     
  7. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Да просто не понятно что где хранится и как что выводить. Где можно почитать о TextExtractor и всех его полях?
    И если не трудно покажи пожалуйста как использовать Result builder для фильтрации данных в $p1.texts
     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    просто почитай новую документацию http://a-parser.com/wiki/new-index/
     
  9. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Спасибо за ссылку, сам не нашел.
     
  10. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Почитал. Вроде чуток прояснилось но все равно не получается с Result Builder-ом.
    Вот так выставил настройки
    pars.PNG
    А в файл выводится только:
    http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy
    #####~~~~~#####

    Что я опять делаю не так?
     
  11. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    бездумно меняешь имя переменной, настройки по умолчанию верные, зачем что то свое придумывать?
    [​IMG]
     
  12. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Да не понял логику. Я думал мы указываем массив который надо почистить и опять сохраняем с таким же именем для последующей обработки.
    Спасибо. Так текст уже появился. Но выдает малюсенький кусочек текста хотя там на сайте куча текста в больших блоках.
    Возвращает:
    http://www.tibigun.ru/detskie-3-h-kolesnye-velosipedy
    выдерживает нагрузку 50кг
    колеса ПВХ, мягкие и бесшумные
    размеры велосипеда: 55х36х89см
    вес велосипеда: 5,5кг
    - 300р
    #####~~~~~#####

    да и строка #####~~~~~##### по идее должна была после урла быть :(
     
  13. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    мы так и делаем, в массив texts в переменную text, ты же зачем то поменял имя переменной
    минимальный размер текста настраивается в настройках

    если ты правильно формат задаешь она будет после урла, смотри внимательно мой скрин
     
  14. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Спасибо, наконец дошло :)
    Ну так минимальный это же значит все что меньше не брать? Почему же он большее количество не забирает?
    Уже увеличил Max body size - не помогает
    точно так же задал:
     

    Вложения:

    • pars.PNG
      pars.PNG
      Размер файла:
      14,4 КБ
      Просмотров:
      10
  15. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    предполагаю это эффект от включенной уникализации результатов по строке :)


    непонятно что именно не помогает, вот на скрине видно что он парсит все блоки, и большие и маленькие, при дефолтных настройках
    [​IMG]
     
  16. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Странно. А у меня вот так на дефолтных. Антивирус не стоит чтоб блочил. Не пойму в чем проблема
    pars1.PNG
    Без прокси:
    pars.PNG
     
  17. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Стукни мне в icq или skype с тимвьювером - посмотрим
     
  18. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Спасибо. Разобрались
     

Поделиться этой страницей