1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 800+ и мы растем!
    Скрыть объявление

Парсинг разными способами максимум результатов из индекса поисковых систем

Парсинг максимум страниц сайта из индекса Google

  1. Support Alex
    Парсить максимум страниц сайта из индекса Google можно несколькими способами. Рассмотрим несколько методов:
    1. Парсим только максимальное кол-во страниц и результатов на странице.
      • Pages count = 10
      • Links per page = 100
    2. Парсим все результаты через отдельную опцию “Спарсить все результаты”.
    3. Парсим максимальное кол-во результатов через макросы подстановок.
    Вот какой результат получили:

    [​IMG]

    1. Максимальное кол-во страниц и результатов на страницах выдачи

    1. Выбираем парсер SE::Google::Modern SE::Google::Modern

    [​IMG]

    2. Для того чтобы по запросу получить положительный ответ увеличиваем кол-во повторных обращений по нему до 100.

    [​IMG]

    3. Добавляем опции Pages count (кол-во страниц в поисковой выдаче) и Links per page (кол-во результатов по запросу на странице поисковой выдачи). Устанавливаем максимальное кол-во страниц (10) и результатов на странице (100).

    [​IMG]

    4. Вводим запрос в поле “Введите запрос”, например - “парсер site:a-parser.com”.

    [​IMG]

    5. Добавляем фильтр для того чтобы не выводить страницы, которые не содержат нужной информации по запросу. После тестового парсинга, в результате видим большое кол-во таких ссылок:

    так как нам эти ссылки в результатах не нужны, то при помощи фильтров будем пропускать эти ссылки.

    Выбираем переменную результата, для которой применять фильтр, далее выбираем тип условия и указываем значение в поле “Строка”. Устанавливаем параметр чувствительности к регистру. Добавляем еще 1 фильтр и в нем выбираем тип условия “Регулярка совпадает”.

    [​IMG]

    [​IMG]

    6. Формат результата и формат запроса оставляем по умолчанию

    [​IMG]

    7.В итоге получаем максимальный количество результатов по одному запросу. Кол-во ссылок получилось 241.

    [​IMG]

    Но Google говорит, что по этому запросу в выдаче значительно больше результатов:

    [​IMG]

    Возникает вопрос: как получить их все? И об этом ниже.

    2. Парсим все результаты опцией “Спарсить все результаты”

    Повторяем пункты 1 - 6 из предыдущего парсинга.

    7. Добавляем опцию “Спарсить все результаты”. Данная опция работает с подстановкой символов от a до z (английского алфавита), подстановка происходит в конце запроса. При этом количество подстановок подбирается автоматически, в зависимости от количества результатов в индексе по начальному запросу.

    Вот реальные значения соотношения кол-ва результатов в индексе и макроса подстановок. Чем больше результатов в индексе, тем больше подстановок.

    1000..30000 - {az:a:z}
    30000..1000000 - {az:aa:zz}
    >= 1000000 - {az:aaa:zzz}

    [​IMG]

    [​IMG]

    8. Включаем опцию “Уникальность по строке” в блоке “Результаты”. Данная опция оставляет в результатах только уникальные строки, повторение строк отсеивает.

    [​IMG]

    9. В итоге получаем максимальный результат по запросу “парсер site:a-parser.com” в индексе Google при помощи опции “Спарсить все”. Только теперь кол-ва результатов из выдачи поисковой системы удалось собрать в 5,37 раза больше чем в предыдущем парсинге. Кол-во ссылок получилось - 1295.

    [​IMG]

    Но количество собранных результатов по-прежнему меньше, чем указано в выдаче Гугла. Поэтому можно вручную еще больше размножить запросы.

    3. Парсим максимально возможное кол-во результатов через макросы подстановок

    Повторяем пункты 1 - 6 из первого парсинга.

    7. Добавляем в “Формат запроса” макрос подстановки, например
    Код:
    {az:aaa:zzz}
    [​IMG]

    9. Включаем опцию “Уникальность по строке” в блоке “Результаты”.

    [​IMG]

    10. В итоге получаем результат с кол-вом ссылок - 8873. Что в 36,81 раз больше чем в первом результате, и в 6,85 раз больше чем во втором результате.

    [​IMG]

    Теперь кол-во собранных результатов даже больше, чем указано в выдаче Google. Это нормально, т.к. Google никогда не показывает реальное количество результатов, а собранный результат только подтверждает это.

    В этой статье мы рассмотрели 3 способа парсинга ссылок из поисковой выдачи Google. Эти методы в целом применимы и для других поисковых систем. Благодаря им можно собирать максимум результатов, используя минимум запросов.
    cleackcom и relay нравится это.