Каков алгоритм сбора google 10 страниц?

  • Автор темы Автор темы andreyz
  • Дата начала Дата начала

andreyz

A-Parser Pro License
A-Parser Pro
Задумался для оптимизации как лучше настроить для увеличения скорости?
1 страницу 100 результатов или 10 страниц по 100?
Мне интересно если в процессе перехода на третью например страницу прокси умирает, то что происходит? предыдущие сохраняются или снова начинается?

Мне нужно парсить ну ооочень много и если одну страницу собирать будет быстрее то в принципе хватит и одной страницы, но с учетом, что это правда быстрее

Что посоветуете?
Спасибо
 
Чего ж тут посоветовать?:)
Если достаточно с одного запроса 100 результатов - парсите 1 страницу, если нужно больше - парсите 10 страниц по 100 результатов. Если этого мало - попробуйте Parse all results (если мы о парсере Гугла).
Если прокси умирает - берется другой (предыдущие страницы сохраняются). Это можно наглядно увидеть, поэксперементировав в Тестовом парсинге.
Ну и понятно, что 1 страница спарсится быстрее, чем 10.
 
Спасибо
Ну в принципе так и думал, но уточнил.
Протестирую, если за счет скорости за то же время собрано больше будет даже при сборе 1 страницы, то мне подходит
Пока как оптимальней не понимаю, мне нужнно более эффективно в единицу времени, а глубиной страниц можно принебречь ибо запросов сотни миллионов
 
Нужно понимать, что для вас эффективность. Если это максимум результатов с одного запроса - тогда нужно выставлять максимум страниц. А если это минимум времени на обработку одного запроса, соответственно высокая скорость парсинга - тогда нужно указывать 1 страницу.
 
Возможно кому то будет интересно, что по итогу теста
Протестировал на одинаковых запросах и одинаковых проксях, в итоге за один и тот же промежуток времени сбор 10 страниц, запросов обработал как и предполагал мньше, но результат конечный на выходе примерно на 30% больше, чем если собирать 1 сраницу.

Так что если не учитывать погрешность работы проксей, то мне эффективней 10 страниц собирать
 
учитывай также, что при выдаче в больше, чем 10 результатов на 1 страницу, у гугла выключается формирование выдачи "на лету" или как оно там называется. поэтому результаты могут быть разными
 
Назад
Верх