Привет! в процессе работы появился вопрос: используя парсер Net::HTTP собираю со страницы несколько параметров title H1 и т.п. на примере одной странице все отработал, собирает именно то, что надо. Далее загружаю 30 ссылок. ( Сайт на WP страницы все типовые.) Запускаю задание и получаю список из 20 успешных результатов и 10 none. Если взять отдельную ссылку по которой получен результат none и запустить задание - результат успешный. Как победить данную ситуацию? Спасибо.
в качестве эксперимента поставил 1 поток результат примерно тот же, причем одну ссылку может раз обработать удачно, а в следующий раз выдать ошибку.
Kreola и Forbidden, спасибо за ответы. Поясню ситуацию пресет собирающий title H1 и т.п я свой не сохранил. Выкладываю пресет собирающий ссылки на картинки eyJwcmVzZXQiOiJpbWFnZSBraW5vIiwidmFsdWUiOnsicHJlc2V0IjoiaW1hZ2Ug a2lubyIsInBhcnNlcnMiOltbIk5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6 ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6ImRhdGEiLCJyZWdleCI6IihodHRwOi8v c3Qua3AueWFuZGV4Lm5ldC9pbWFnZXMvZmlsbV9pcGhvbmUvaXBob25lMzYwX1xc ZCtcXC5qcGcpIiwicmVnZXhUeXBlIjoiaXMiLCJyZXN1bHRUeXBlIjoiZmxhdCIs ImFycmF5TmFtZSI6IiIsInJlc3VsdHMiOlsiaW1hZ2UiXX0seyJ0eXBlIjoib3Zl cnJpZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJGltYWdlIn0seyJ0 eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfV1d LCJyZXN1bHRzRm9ybWF0IjoiJHAxLmltYWdlXFxuIiwicmVzdWx0c1NhdmVUbyI6 ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCkudHh0 IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJx dWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNh dmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxs TGV2ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNl fSwicmVzdWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoi ZGIiLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3Vs dHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMi OltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0= При запуске у меня из 19 неудачных результатов 3. При запуске 43 ссылок результатов none 9. Если запустить ссылки неудачных запросов по одной все собирает без проблем. в этом задании обрабатывал 10 ссылок в 1 поток. Шестая ссылка в результатах none
Можно, 1) у вас регулярка написана для (http://st.kp.yandex.net/images/film_iphone/iphone360_\d+\.jpg) а на сайте <img src="http://st.kp.yandex.net/images/film/99625.jpg" что-то ну никак не верится) Регурялку перепишите на (http://st.kp.yandex.net/images/.*?\.jpg) и все должно работать. Также нажимаем на гаечный ключик и дальше на молнию. Добавляем Request retries =10
Kreola регулярка берет именно те ссылки которые нужны. Странно, что не верится, я выложил пресет легко добавить и убедиться. Request retries =10 насколько я вижу стоит по умолчанию пробовал ставить значение больше положительной тенденции не увидел. Мне кажется проблема в чем-то другом. Спасибо.
Добавь эту регулярку как Check ReGex (опция Check content) Возможно сайт банит за частые запросы, в случае если регулярка не сработает страница будет загружена еще раз(до лимита Request retries) Также в этом случае лучше использовать прокси
Forbidden помогло, но частично. при добавлении 37 ссылок выдает 29 удачных результатов. Далее 8 подряд none. Без Check ReGex эти 8 none выпадают в случайном порядке. Прокси включены.
http://www.kinopoisk.ru/film/99625 вот (№6 из поста сверху) ссылка,на которой якобы должна быть ваша картинка с адресом http://st.kp.yandex.net/images/film_iphone/iphone360_\d+\.jpg, А где вы там нашли такую картинку я не знаю. отсюда и none