1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг и чистка сниппетов

Тема в разделе "Техническая поддержка", создана пользователем Антон, 2 авг 2014.

  1. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
    Нужно напарсить сниппетов (с гугла и яндекса) и очистить их от html. В результате получить "один сниппет - одна строка". Желательно тут же спарсить и сниппеты с рекламных объявлений. Как настроить такое задание?
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    [​IMG]
     
    Антон нравится это.
  3. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
    Благодарю!
     
  4. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Forbidden, спасибо!
     
  5. fri-lancer

    fri-lancer A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 апр 2014
    Сообщения:
    89
    Симпатии:
    7
    Сделал все как на картинке, но почему то не работает

    111.png
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    нету живых прокси, "Ожидающих потоков: 20" означает что все потоки ждут прокси
     
  7. fsmakov

    fsmakov A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 янв 2014
    Сообщения:
    19
    Симпатии:
    5
    Тоже сделал как на скрине..парсит с тегами и с УРЛ
     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    покажи свой скрин
     
  9. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
    Кстати, подтверждаю. Куча " —", ".nbsp;..." и урлы попадаются в самых разных формах.
     
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    &..; это не теги, это html сущности, для них надо использовать Decode HTML Entities
    о каких разных формах урлов речь?
     
  11. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
    А как Decode HTML Entities использовать?
     
  12. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    выложи скрин настроек задания


    через Result builder(конструктор результатов)
     
  13. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
  14. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    по твоему скрину ты парсишь только сниппеты, если там попадаются урлы то это значит что это часть сниппета, и то как он выводиться целиком и полностью зависит от Яндекса
     
  15. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
    Ну да. Я было подумал, что они чистятся. Но, в общем-то, с чего бы.
     
  16. fsmakov

    fsmakov A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 янв 2014
    Сообщения:
    19
    Симпатии:
    5
    скрин задания
    [​IMG]

    скрин резульата

    [​IMG]
     
  17. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    этот результат не от того задания которое на скрине, т.к. в результате выведен титл - урл - сниппет, а не просто сниппет, и очевидно хтмл теги встречаются только в титле
     
  18. fsmakov

    fsmakov A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 янв 2014
    Сообщения:
    19
    Симпатии:
    5
    конечно не от того..что на скрине. я же просто так вообще зашел в эту ветку .
    То..что имя файла результата отличается от того, что в настрйоках объясняется тем, что парсинг я запустил утром..а скрин сделал с тех же настроек вечером. имя файла только другое сохранено в профиле. Такая же херь парсится из быстрого задания. .точно такой же результат в файле.
     
  19. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    причем тут имя файла? я вижу явное не соответствие задания и его результата :) в задании ты выводишь только сниппеты, а результат смотришь совсем от другого задания, в котором в результат выводиться титл - урл - сниппет, сниппет очищен от тегов, а титл как раз нет
     

Поделиться этой страницей