Парсить максимум страниц сайта из индекса Google можно несколькими способами. Рассмотрим несколько методов:
Вот какой результат получили:
- Парсим только максимальное кол-во страниц и результатов на странице.
- Pages count = 10
- Links per page = 100
- Парсим все результаты через отдельную опцию “Спарсить все результаты”.
- Парсим максимальное кол-во результатов через макросы подстановок.
1. Максимальное кол-во страниц и результатов на страницах выдачи
1. Выбираем парсерSE::Google::Modern
2. Для того чтобы по запросу получить положительный ответ увеличиваем кол-во повторных обращений по нему до 100.
3. Добавляем опции Pages count (кол-во страниц в поисковой выдаче) и Links per page (кол-во результатов по запросу на странице поисковой выдачи). Устанавливаем максимальное кол-во страниц (10) и результатов на странице (100).
4. Вводим запрос в поле “Введите запрос”, например - “парсер site:a-parser.com”.
5. Добавляем фильтр для того чтобы не выводить страницы, которые не содержат нужной информации по запросу. После тестового парсинга, в результате видим большое кол-во таких ссылок:
- https://en.a-parser.com/wiki/se-mailru-position/
- https://translate.google.com/translate?hl=en&sl=ru&u=https://a-parser.com/threads/4790/&prev=search
- https://a-parser.com/wiki/net-http/like
так как нам эти ссылки в результатах не нужны, то при помощи фильтров будем пропускать эти ссылки.
Выбираем переменную результата, для которой применять фильтр, далее выбираем тип условия и указываем значение в поле “Строка”. Устанавливаем параметр чувствительности к регистру. Добавляем еще 1 фильтр и в нем выбираем тип условия “Регулярка совпадает”.
6. Формат результата и формат запроса оставляем по умолчанию
7.В итоге получаем максимальный количество результатов по одному запросу. Кол-во ссылок получилось 241.
Но Google говорит, что по этому запросу в выдаче значительно больше результатов:
Возникает вопрос: как получить их все? И об этом ниже.
2. Парсим все результаты опцией “Спарсить все результаты”
Повторяем пункты 1 - 6 из предыдущего парсинга.
7. Добавляем опцию “Спарсить все результаты”. Данная опция работает с подстановкой символов от a до z (английского алфавита), подстановка происходит в конце запроса. При этом количество подстановок подбирается автоматически, в зависимости от количества результатов в индексе по начальному запросу.
Вот реальные значения соотношения кол-ва результатов в индексе и макроса подстановок. Чем больше результатов в индексе, тем больше подстановок.
1000..30000 - {az:a:z}
30000..1000000 - {az:aa:zz}
>= 1000000 - {az:aaa:zzz}
8. Включаем опцию “Уникальность по строке” в блоке “Результаты”. Данная опция оставляет в результатах только уникальные строки, повторение строк отсеивает.
9. В итоге получаем максимальный результат по запросу “парсер site:a-parser.com” в индексе Google при помощи опции “Спарсить все”. Только теперь кол-ва результатов из выдачи поисковой системы удалось собрать в 5,37 раза больше чем в предыдущем парсинге. Кол-во ссылок получилось - 1295.
Но количество собранных результатов по-прежнему меньше, чем указано в выдаче Гугла. Поэтому можно вручную еще больше размножить запросы.
3. Парсим максимально возможное кол-во результатов через макросы подстановок
Повторяем пункты 1 - 6 из первого парсинга.
7. Добавляем в “Формат запроса” макрос подстановки, напримерКод:{az:aaa:zzz}
9. Включаем опцию “Уникальность по строке” в блоке “Результаты”.
10. В итоге получаем результат с кол-вом ссылок - 8873. Что в 36,81 раз больше чем в первом результате, и в 6,85 раз больше чем во втором результате.
Теперь кол-во собранных результатов даже больше, чем указано в выдаче Google. Это нормально, т.к. Google никогда не показывает реальное количество результатов, а собранный результат только подтверждает это.
В этой статье мы рассмотрели 3 способа парсинга ссылок из поисковой выдачи Google. Эти методы в целом применимы и для других поисковых систем. Благодаря им можно собирать максимум результатов, используя минимум запросов.
-
Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!Скрыть объявление
Парсинг разными способами максимум результатов из индекса поисковых систем
Парсинг максимум страниц сайта из индекса Google
Метки:


![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F7gyeh_191029192345.png&hash=5bea85ba904c4b458b366b54acd3cd17)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2Foxn2b_191023140013.png&hash=d42a42ef42c174321e668126dd29b3e2)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2Fpnnt5_191023140202.png&hash=14804785ba6463017eb3dfb5d152c796)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2Fbbt9p_191023145629.png&hash=48af6575be8bbca53e8fc0b3ef8d04ea)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2Feze96_191023150252.png&hash=dd2c42e553147ad8633834bcba151df1)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F4tq99_191023150739.png&hash=53117c11627088d9e0d3ad229f32958e)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F0uft8_191023154720.png&hash=dc0259b523aaa2e9964c453319621635)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F0cfv4_191023155931.png&hash=6319f8e33116f73616662e194d7d8e47)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F398y2_191023160136.png&hash=afe4576e79a412b63563f751171e0775)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2Fdzv9f_191029113542.png&hash=77e15f4100c811fe97a9857797a0b3a2)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F78fmf_191023161556.png&hash=2907f64f9177c23f5fd16fac6be35d81)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2Foax1h_191023173131.png&hash=f459f4531099d4e5333b48972a7f9625)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F4r9io_191023161802.png&hash=c1e23d7de26605d26c3c0fa231d18535)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F24605_191023162118.png&hash=eb7c8f2f3d33b2cc2d0ff2b4a44e1892)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F6b386_191029190125.png&hash=bf8aca44d7638a40f9586046e7ebf769)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2F4alfw_191023174729.png&hash=46d3fd8b89852daeb37e6e3175ac6d1c)
![[IMG]](proxy.php?image=https%3A%2F%2Ffiles.a-parser.com%2Fimg%2Fzsd09_191023181442.png&hash=9023354047284d94476b9642430139da)