Парсинг разными способами максимум результатов из индекса поисковых систем

Парсинг разными способами максимум результатов из индекса поисковых систем

Парсить максимум страниц сайта из индекса Google можно несколькими способами. Рассмотрим несколько методов:
  1. Парсим только максимальное кол-во страниц и результатов на странице.
    • Pages count = 10
    • Links per page = 100
  2. Парсим все результаты через отдельную опцию “Спарсить все результаты”.
  3. Парсим максимальное кол-во результатов через макросы подстановок.
Вот какой результат получили:

7gyeh_191029192345.png


1. Максимальное кол-во страниц и результатов на страницах выдачи

1. Выбираем парсер SE::Google::Modern SE::Google::Modern

oxn2b_191023140013.png


2. Для того чтобы по запросу получить положительный ответ увеличиваем кол-во повторных обращений по нему до 100.

pnnt5_191023140202.png


3. Добавляем опции Pages count (кол-во страниц в поисковой выдаче) и Links per page (кол-во результатов по запросу на странице поисковой выдачи). Устанавливаем максимальное кол-во страниц (10) и результатов на странице (100).

bbt9p_191023145629.png


4. Вводим запрос в поле “Введите запрос”, например - “парсер site:a-parser.com”.

eze96_191023150252.png


5. Добавляем фильтр для того чтобы не выводить страницы, которые не содержат нужной информации по запросу. После тестового парсинга, в результате видим большое кол-во таких ссылок:

так как нам эти ссылки в результатах не нужны, то при помощи фильтров будем пропускать эти ссылки.

Выбираем переменную результата, для которой применять фильтр, далее выбираем тип условия и указываем значение в поле “Строка”. Устанавливаем параметр чувствительности к регистру. Добавляем еще 1 фильтр и в нем выбираем тип условия “Регулярка совпадает”.

4tq99_191023150739.png


0uft8_191023154720.png


6. Формат результата и формат запроса оставляем по умолчанию

0cfv4_191023155931.png


7.В итоге получаем максимальный количество результатов по одному запросу. Кол-во ссылок получилось 241.

398y2_191023160136.png


Но Google говорит, что по этому запросу в выдаче значительно больше результатов:

dzv9f_191029113542.png


Возникает вопрос: как получить их все? И об этом ниже.

2. Парсим все результаты опцией “Спарсить все результаты”

Повторяем пункты 1 - 6 из предыдущего парсинга.

7. Добавляем опцию “Спарсить все результаты”. Данная опция работает с подстановкой символов от a до z (английского алфавита), подстановка происходит в конце запроса. При этом количество подстановок подбирается автоматически, в зависимости от количества результатов в индексе по начальному запросу.

Вот реальные значения соотношения кол-ва результатов в индексе и макроса подстановок. Чем больше результатов в индексе, тем больше подстановок.

1000..30000 - {az:a:z}
30000..1000000 - {az:aa:zz}
>= 1000000 - {az:aaa:zzz}

78fmf_191023161556.png


oax1h_191023173131.png


8. Включаем опцию “Уникальность по строке” в блоке “Результаты”. Данная опция оставляет в результатах только уникальные строки, повторение строк отсеивает.

4r9io_191023161802.png


9. В итоге получаем максимальный результат по запросу “парсер site:a-parser.com” в индексе Google при помощи опции “Спарсить все”. Только теперь кол-ва результатов из выдачи поисковой системы удалось собрать в 5,37 раза больше чем в предыдущем парсинге. Кол-во ссылок получилось - 1295.

24605_191023162118.png


Но количество собранных результатов по-прежнему меньше, чем указано в выдаче Гугла. Поэтому можно вручную еще больше размножить запросы.

3. Парсим максимально возможное кол-во результатов через макросы подстановок

Повторяем пункты 1 - 6 из первого парсинга.

7. Добавляем в “Формат запроса” макрос подстановки, например
Код:
{az:aaa:zzz}

6b386_191029190125.png


9. Включаем опцию “Уникальность по строке” в блоке “Результаты”.

4alfw_191023174729.png


10. В итоге получаем результат с кол-вом ссылок - 8873. Что в 36,81 раз больше чем в первом результате, и в 6,85 раз больше чем во втором результате.

zsd09_191023181442.png


Теперь кол-во собранных результатов даже больше, чем указано в выдаче Google. Это нормально, т.к. Google никогда не показывает реальное количество результатов, а собранный результат только подтверждает это.

В этой статье мы рассмотрели 3 способа парсинга ссылок из поисковой выдачи Google. Эти методы в целом применимы и для других поисковых систем. Благодаря им можно собирать максимум результатов, используя минимум запросов.
Автор
Support Alex
Просмотры
35
Первый выпуск
Обновление

Рейтинги

5,00 звёзд Оценок: 1

Ещё ресурсы от Support Alex

Назад
Верх