Задумался для оптимизации как лучше настроить для увеличения скорости? 1 страницу 100 результатов или 10 страниц по 100? Мне интересно если в процессе перехода на третью например страницу прокси умирает, то что происходит? предыдущие сохраняются или снова начинается? Мне нужно парсить ну ооочень много и если одну страницу собирать будет быстрее то в принципе хватит и одной страницы, но с учетом, что это правда быстрее Что посоветуете? Спасибо
Чего ж тут посоветовать? Если достаточно с одного запроса 100 результатов - парсите 1 страницу, если нужно больше - парсите 10 страниц по 100 результатов. Если этого мало - попробуйте Parse all results (если мы о парсере Гугла). Если прокси умирает - берется другой (предыдущие страницы сохраняются). Это можно наглядно увидеть, поэксперементировав в Тестовом парсинге. Ну и понятно, что 1 страница спарсится быстрее, чем 10.
Спасибо Ну в принципе так и думал, но уточнил. Протестирую, если за счет скорости за то же время собрано больше будет даже при сборе 1 страницы, то мне подходит Пока как оптимальней не понимаю, мне нужнно более эффективно в единицу времени, а глубиной страниц можно принебречь ибо запросов сотни миллионов
Нужно понимать, что для вас эффективность. Если это максимум результатов с одного запроса - тогда нужно выставлять максимум страниц. А если это минимум времени на обработку одного запроса, соответственно высокая скорость парсинга - тогда нужно указывать 1 страницу.
Возможно кому то будет интересно, что по итогу теста Протестировал на одинаковых запросах и одинаковых проксях, в итоге за один и тот же промежуток времени сбор 10 страниц, запросов обработал как и предполагал мньше, но результат конечный на выходе примерно на 30% больше, чем если собирать 1 сраницу. Так что если не учитывать погрешность работы проксей, то мне эффективней 10 страниц собирать
учитывай также, что при выдаче в больше, чем 10 результатов на 1 страницу, у гугла выключается формирование выдачи "на лету" или как оно там называется. поэтому результаты могут быть разными