Парсить максимум страниц сайта из индекса Google можно несколькими способами. Рассмотрим несколько методов:
Вот какой результат получили:
- Парсим только максимальное кол-во страниц и результатов на странице.
- Pages count = 10
- Links per page = 100
- Парсим все результаты через отдельную опцию “Спарсить все результаты”.
- Парсим максимальное кол-во результатов через макросы подстановок.
1. Максимальное кол-во страниц и результатов на страницах выдачи
1. Выбираем парсер SE::Google::Modern
2. Для того чтобы по запросу получить положительный ответ увеличиваем кол-во повторных обращений по нему до 100.
3. Добавляем опции Pages count (кол-во страниц в поисковой выдаче) и Links per page (кол-во результатов по запросу на странице поисковой выдачи). Устанавливаем максимальное кол-во страниц (10) и результатов на странице (100).
4. Вводим запрос в поле “Введите запрос”, например - “парсер site:a-parser.com”.
5. Добавляем фильтр для того чтобы не выводить страницы, которые не содержат нужной информации по запросу. После тестового парсинга, в результате видим большое кол-во таких ссылок:
- https://en.a-parser.com/wiki/se-mailru-position/
- https://translate.google.com/translate?hl=en&sl=ru&u=https://a-parser.com/threads/4790/&prev=search
- https://a-parser.com/wiki/net-http/like
так как нам эти ссылки в результатах не нужны, то при помощи фильтров будем пропускать эти ссылки.
Выбираем переменную результата, для которой применять фильтр, далее выбираем тип условия и указываем значение в поле “Строка”. Устанавливаем параметр чувствительности к регистру. Добавляем еще 1 фильтр и в нем выбираем тип условия “Регулярка совпадает”.
6. Формат результата и формат запроса оставляем по умолчанию
7.В итоге получаем максимальный количество результатов по одному запросу. Кол-во ссылок получилось 241.
Но Google говорит, что по этому запросу в выдаче значительно больше результатов:
Возникает вопрос: как получить их все? И об этом ниже.
2. Парсим все результаты опцией “Спарсить все результаты”
Повторяем пункты 1 - 6 из предыдущего парсинга.
7. Добавляем опцию “Спарсить все результаты”. Данная опция работает с подстановкой символов от a до z (английского алфавита), подстановка происходит в конце запроса. При этом количество подстановок подбирается автоматически, в зависимости от количества результатов в индексе по начальному запросу.
Вот реальные значения соотношения кол-ва результатов в индексе и макроса подстановок. Чем больше результатов в индексе, тем больше подстановок.
1000..30000 - {az:a:z}
30000..1000000 - {az:aa:zz}
>= 1000000 - {az:aaa:zzz}
8. Включаем опцию “Уникальность по строке” в блоке “Результаты”. Данная опция оставляет в результатах только уникальные строки, повторение строк отсеивает.
9. В итоге получаем максимальный результат по запросу “парсер site:a-parser.com” в индексе Google при помощи опции “Спарсить все”. Только теперь кол-ва результатов из выдачи поисковой системы удалось собрать в 5,37 раза больше чем в предыдущем парсинге. Кол-во ссылок получилось - 1295.
Но количество собранных результатов по-прежнему меньше, чем указано в выдаче Гугла. Поэтому можно вручную еще больше размножить запросы.
3. Парсим максимально возможное кол-во результатов через макросы подстановок
Повторяем пункты 1 - 6 из первого парсинга.
7. Добавляем в “Формат запроса” макрос подстановки, напримерКод:{az:aaa:zzz}
9. Включаем опцию “Уникальность по строке” в блоке “Результаты”.
10. В итоге получаем результат с кол-вом ссылок - 8873. Что в 36,81 раз больше чем в первом результате, и в 6,85 раз больше чем во втором результате.
Теперь кол-во собранных результатов даже больше, чем указано в выдаче Google. Это нормально, т.к. Google никогда не показывает реальное количество результатов, а собранный результат только подтверждает это.
В этой статье мы рассмотрели 3 способа парсинга ссылок из поисковой выдачи Google. Эти методы в целом применимы и для других поисковых систем. Благодаря им можно собирать максимум результатов, используя минимум запросов.
-
Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!Скрыть объявление
Парсинг разными способами максимум результатов из индекса поисковых систем
Парсинг максимум страниц сайта из индекса Google
Метки: