Парсит не все данные

  • Автор темы Автор темы 18kotov
  • Дата начала Дата начала

18kotov

A-Parser Pro License
A-Parser Pro
Привет!
в процессе работы появился вопрос:
используя парсер Net::HTTP собираю со страницы несколько параметров title H1 и т.п.
на примере одной странице все отработал, собирает именно то, что надо.
Далее загружаю 30 ссылок. ( Сайт на WP страницы все типовые.)
Запускаю задание и получаю список из 20 успешных результатов и 10 none.
Если взять отдельную ссылку по которой получен результат none и запустить задание - результат успешный. Как победить данную ситуацию?
Спасибо.
 
в качестве эксперимента поставил 1 поток результат примерно тот же, причем одну ссылку может раз обработать удачно, а в следующий раз выдать ошибку.
 
включи ведение лога и смотри проблему
 
тогда давай предметно, какое задание, какие запросы...
 
2015051711_5396448_17331235.png
 

ты хотя бы написал что это за скрин, у тебя такая же проблема или... ?
 
Kreola и Forbidden, спасибо за ответы. Поясню ситуациюhttp://a-parser.com/users/1/
пресет собирающий title H1 и т.п я свой не сохранил.
Выкладываю пресет собирающий ссылки на картинки

eyJwcmVzZXQiOiJpbWFnZSBraW5vIiwidmFsdWUiOnsicHJlc2V0IjoiaW1hZ2Ug
a2lubyIsInBhcnNlcnMiOltbIk5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6
ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6ImRhdGEiLCJyZWdleCI6IihodHRwOi8v
c3Qua3AueWFuZGV4Lm5ldC9pbWFnZXMvZmlsbV9pcGhvbmUvaXBob25lMzYwX1xc
ZCtcXC5qcGcpIiwicmVnZXhUeXBlIjoiaXMiLCJyZXN1bHRUeXBlIjoiZmxhdCIs
ImFycmF5TmFtZSI6IiIsInJlc3VsdHMiOlsiaW1hZ2UiXX0seyJ0eXBlIjoib3Zl
cnJpZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJGltYWdlIn0seyJ0
eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfV1d
LCJyZXN1bHRzRm9ybWF0IjoiJHAxLmltYWdlXFxuIiwicmVzdWx0c1NhdmVUbyI6
ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCkudHh0
IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJx
dWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNh
dmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxs
TGV2ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNl
fSwicmVzdWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoi
ZGIiLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3Vs
dHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMi
OltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0=

При запуске у меня из 19 неудачных результатов 3.
При запуске 43 ссылок результатов none 9.
Если запустить ссылки неудачных запросов по одной все собирает без проблем.
6cbdf5cc8e66.jpg

в этом задании обрабатывал 10 ссылок в 1 поток. Шестая ссылка в результатах none
 
Можно,
1) у вас регулярка написана для (http://st.kp.yandex.net/images/film_iphone/iphone360_\d+\.jpg)
а на сайте <img src="http://st.kp.yandex.net/images/film/99625.jpg"
Если запустить ссылки неудачных запросов по одной все собирает без проблем.
что-то ну никак не верится)

Регурялку перепишите на (http://st.kp.yandex.net/images/.*?\.jpg) и все должно работать.
Также нажимаем на гаечный ключик и дальше на молнию. Добавляем Request retries =10
 
Kreola
регулярка берет именно те ссылки которые нужны. Странно, что не верится, я выложил пресет легко добавить и убедиться.
Request retries =10 насколько я вижу стоит по умолчанию пробовал ставить значение больше положительной тенденции не увидел.
Мне кажется проблема в чем-то другом.
Спасибо.
 
Добавь эту регулярку как Check ReGex (опция Check content)
n5jxm.png



Возможно сайт банит за частые запросы, в случае если регулярка не сработает страница будет загружена еще раз(до лимита Request retries)
Также в этом случае лучше использовать прокси
 
Forbidden
помогло, но частично.
при добавлении 37 ссылок выдает 29 удачных результатов. Далее 8 подряд none. Без Check ReGex эти 8 none выпадают в случайном порядке.
Прокси включены.
 
Назад
Верх