1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсит не все данные

Тема в разделе "Техническая поддержка", создана пользователем 18kotov, 15 май 2015.

  1. 18kotov

    18kotov A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 май 2015
    Сообщения:
    35
    Симпатии:
    5
    Привет!
    в процессе работы появился вопрос:
    используя парсер Net::HTTP собираю со страницы несколько параметров title H1 и т.п.
    на примере одной странице все отработал, собирает именно то, что надо.
    Далее загружаю 30 ссылок. ( Сайт на WP страницы все типовые.)
    Запускаю задание и получаю список из 20 успешных результатов и 10 none.
    Если взять отдельную ссылку по которой получен результат none и запустить задание - результат успешный. Как победить данную ситуацию?
    Спасибо.
     
  2. 18kotov

    18kotov A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 май 2015
    Сообщения:
    35
    Симпатии:
    5
    в качестве эксперимента поставил 1 поток результат примерно тот же, причем одну ссылку может раз обработать удачно, а в следующий раз выдать ошибку.
     
  3. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.793
    включи ведение лога и смотри проблему
     
  4. 18kotov

    18kotov A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 май 2015
    Сообщения:
    35
    Симпатии:
    5
    логи включил, но проблему не понял
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.793
    тогда давай предметно, какое задание, какие запросы...
     
  6. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
  7. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.793
    ты хотя бы написал что это за скрин, у тебя такая же проблема или... ?
     
  8. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    упс (прости, буду иметь ввиду), нет, это рабочий пресет для
    18kotov
     
  9. 18kotov

    18kotov A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 май 2015
    Сообщения:
    35
    Симпатии:
    5
    Kreola и Forbidden, спасибо за ответы. Поясню ситуацию
    пресет собирающий title H1 и т.п я свой не сохранил.
    Выкладываю пресет собирающий ссылки на картинки

    eyJwcmVzZXQiOiJpbWFnZSBraW5vIiwidmFsdWUiOnsicHJlc2V0IjoiaW1hZ2Ug
    a2lubyIsInBhcnNlcnMiOltbIk5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6
    ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6ImRhdGEiLCJyZWdleCI6IihodHRwOi8v
    c3Qua3AueWFuZGV4Lm5ldC9pbWFnZXMvZmlsbV9pcGhvbmUvaXBob25lMzYwX1xc
    ZCtcXC5qcGcpIiwicmVnZXhUeXBlIjoiaXMiLCJyZXN1bHRUeXBlIjoiZmxhdCIs
    ImFycmF5TmFtZSI6IiIsInJlc3VsdHMiOlsiaW1hZ2UiXX0seyJ0eXBlIjoib3Zl
    cnJpZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJGltYWdlIn0seyJ0
    eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfV1d
    LCJyZXN1bHRzRm9ybWF0IjoiJHAxLmltYWdlXFxuIiwicmVzdWx0c1NhdmVUbyI6
    ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCkudHh0
    IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJx
    dWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNh
    dmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxs
    TGV2ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNl
    fSwicmVzdWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoi
    ZGIiLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3Vs
    dHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMi
    OltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0=

    При запуске у меня из 19 неудачных результатов 3.
    При запуске 43 ссылок результатов none 9.
    Если запустить ссылки неудачных запросов по одной все собирает без проблем.
    [​IMG]
    в этом задании обрабатывал 10 ссылок в 1 поток. Шестая ссылка в результатах none
     
  10. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Добавьте для начала Request retries
     
  11. 18kotov

    18kotov A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 май 2015
    Сообщения:
    35
    Симпатии:
    5
    Kreola
    а можно чуть подробнее?
     
  12. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Можно,
    1) у вас регулярка написана для (http://st.kp.yandex.net/images/film_iphone/iphone360_\d+\.jpg)
    а на сайте <img src="http://st.kp.yandex.net/images/film/99625.jpg"
    что-то ну никак не верится)

    Регурялку перепишите на (http://st.kp.yandex.net/images/.*?\.jpg) и все должно работать.
    Также нажимаем на гаечный ключик и дальше на молнию. Добавляем Request retries =10
     
  13. 18kotov

    18kotov A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 май 2015
    Сообщения:
    35
    Симпатии:
    5
    Kreola
    регулярка берет именно те ссылки которые нужны. Странно, что не верится, я выложил пресет легко добавить и убедиться.
    Request retries =10 насколько я вижу стоит по умолчанию пробовал ставить значение больше положительной тенденции не увидел.
    Мне кажется проблема в чем-то другом.
    Спасибо.
     
  14. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.793
    Добавь эту регулярку как Check ReGex (опция Check content)
    [​IMG]


    Возможно сайт банит за частые запросы, в случае если регулярка не сработает страница будет загружена еще раз(до лимита Request retries)
    Также в этом случае лучше использовать прокси
     
  15. 18kotov

    18kotov A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 май 2015
    Сообщения:
    35
    Симпатии:
    5
    Forbidden
    помогло, но частично.
    при добавлении 37 ссылок выдает 29 удачных результатов. Далее 8 подряд none. Без Check ReGex эти 8 none выпадают в случайном порядке.
    Прокси включены.
     
  16. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.793
    дак по каким ссылка неудачные выдает?
     
  17. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Forbidden нравится это.

Поделиться этой страницей