1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Как парсить выдачу Google?

Тема в разделе "Делимся опытом", создана пользователем romego, 18 фев 2023.

  1. romego

    romego A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 май 2020
    Сообщения:
    15
    Симпатии:
    1
    Задача: Парсинг поисковой выдачи Google.

    Условия:

    Скорость: от 5 000 запросов в час.
    Глубина: ТОП 100 (не важно, 1 страница и 100 результатов или 10 страниц по 10 результатов)

    Софт:

    A-Parser (1.2.1794) + Xevil 6 (Beta 21)

    Что сейчас:

    До 2023, всё работало стабильно, использовались прокси A-parser, проблем не возникало. Сейчас уходят в бан или в цикл проверки (рекапча => капча => рекапча => и в бесконечный повтор до 429 кода ошибки и фактически бана).
    Перепробовал десятки прокси. Ситуация схожая.

    Вопросы:

    1) Проблема в прокси? (Посоветуйте, какими пользуетесь?)
    2) Пробка в настройках? (Какие настройки используете?)
    3) Проблема в синхронизации между A-Parser + Xevil? (на форуме Xevil, разработчики пишут, что связка hrefer + Xevil работает стабильно)
    Решение:
    Возможно реализовать?

    Нашел темы на форуме:
    от 28..07.2022 - https://a-parser.com/threads/7593/
    от 03.07.2022 - https://a-parser.com/threads/7489/page-3
    Далее 03.09.2022, вышло обновление - https://a-parser.com/threads/7671/#post-24524
    Но кажется, что проблема не решена.
     
  2. bossgs

    bossgs A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    28 янв 2016
    Сообщения:
    56
    Симпатии:
    5
    Действительно в последнее время такая проблема наблюдается в апарсере с парсингом на больших объемах. Тоже тестировали на разных прокси.
    Зацикливание с капчей и 429 ошибка значительно уменьшается если в настройках убрать - Location (City). Но, тогда точность/правильность выдачи уменьшается.
     
  3. Support Alex

    Support Alex Moderator
    Команда форума A-Parser Enterprise

    Регистрация:
    1 окт 2019
    Сообщения:
    278
    Симпатии:
    50
    На данный момент актуальная инструкция для парсинга Google при использовании Xevil:

    В Xevil:
    Тип апи: Antigate (Anti-Captcha)
    Включен прием прокси, кук и юа
    Подключены прокси (не те, что в парсере)

    В A-Parser:
    В настройках рекаптчи Provider - Xevil (Antigate)
    В настройках гугла - 10*10, ReCaptcha2 pass proxy выключено
    Ну и выбран пресет рекаптчи
    Остальное все по дефолту
    Прокси в парсере наши

    Работает нормально, токены гуглом чаще принимаются, чем не принимаются (статистики нет, визуально по логу где-то 70% принимаются).

    Если включить ReCaptcha2 pass proxy, то в ксевил будет передаваться прокся из парсера. Но если она в процессе умрет, то ксевил возмет из тех, которые к нему подключены. А если нет подключенных, то будет пытаться гадать рекаптчу без прокси

    Пробовали и с включенным ReCaptcha2 pass proxy, разницы не заметили
     
    Apples1 и romego нравится это.
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.371
    Симпатии:
    2.101
    Тест парсинга Google

    Условия теста: парсинг топ100 из поисковой выдачи Google, время парсинга - 10 минут. Цель теста: сравнить различные условия парсинга.
    Для теста были использованы:
    A-Parser 1.2.1798
    прокси из Личного кабинета, 50 потоков, все остальное по дефолту, кроме того, что указано ниже для каждого отдельного теста.
    XEvil 6 [Beta-22]
    в соответствии с рекомендациями из форума: тип API - Antigate (Anti-Captcha), включен прием прокси, кук и юзер-агента, подключены прокси (не те, которые используются в А-Парсере).

    1 стр, 100 рез/стр, 30 попыток, разгадывание рекаптчи через anti-captcha - скорость 13 запросов/минуту
    [​IMG]

    10 стр, 10 рез/стр, 30 попыток, разгадывание рекаптчи через anti-captcha - скорость 20 запросов/минуту
    [​IMG]

    1 стр, 100 рез/стр, 100 попыток, без разгадывания рекаптчи - скорость 24 запросов/минуту
    [​IMG]

    10 стр, 10 рез/стр, 100 попыток, без разгадывания рекаптчи - скорость 6 запросов/минуту
    [​IMG]

    10 стр, 10 рез/стр, 30 попыток, разгадывание рекаптчи через XEvil - скорость 12 запросов/минуту
    [​IMG]

    10 стр, 10 рез/стр, 30 попыток, разгадывание рекаптчи через XEvil, включен ReCaptcha2 pass proxy - скорость 13 запросов/минуту
    [​IMG]

    1 стр, 100 рез/стр, 30 попыток, разгадывание рекаптчи через XEvil - скорость 2 запроса/минуту
    [​IMG]

    1 стр, 100 рез/стр, 30 попыток, разгадывание рекаптчи через XEvil, включен ReCaptcha2 pass proxy - скорость 1 запрос/минуту
    [​IMG]

    Вывод
    Наибольшая скорость достигается при парсинге 1*100 без разгадывания рекаптчи (на попытках).
    Если говорить о разгадывании рекаптч с помощью XEvil, то лучше всего парсить 10*10. Но скорость будет ниже, чем при разгадывании через anti-captcha, т.к. токены от XEvil намного хуже принимаются Гуглом и соответственно выдается намного больше повторных рекаптч. Передача прокси в XEvil (ReCaptcha2 pass proxy) практически не влияет на скорость.
     
  5. bossgs

    bossgs A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    28 янв 2016
    Сообщения:
    56
    Симпатии:
    5
    1. 300-500 запросов собрать можно даже на самых плохих проксях, интересно посмотреть как будет идти сбор после 15000 запроса
    2. На 3 скриншоте уже на 249 запросе у вас пошли неудачные
    на 4 скринштое уже на 64 запросе у вас пошли неудачные!!!
     
  6. seo-bro

    seo-bro A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 мар 2021
    Сообщения:
    10
    Симпатии:
    0
    Нормально все и после 20к собирает) (10 результатов по 5 страниц).

    Главное понять логику работы с рекапчей и подобрать под это пул прокси.

    Хочешь парсить по 100 резалтов на норм скорости, есть прокси с новым IP каждый запрос, но там 1 поток 700р стоит. Бери их и будешь летать )
     

    Вложения:

  7. apistudio.ru

    apistudio.ru A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 фев 2018
    Сообщения:
    14
    Симпатии:
    9

    Вот всегда удивляли такие бессодержательные ответы, разве что для накрутки постов...

    "понять логику работы с рекапчей" - если вы её действительно понимаете, то поделитесь с сообществом своими знаниями применительно к парсингу серпа гугла (здесь обсуждаем именно это).

    "Хочешь парсить по 100 резалтов на норм скорости, есть прокси с новым IP каждый запрос, но там 1 поток 700р стоит. Бери их и будешь летать" - что для вас нормальная скорость? По проксям - без разницы, какие прокси, если вы используете их для парса без ротации, закапчиваются они все, в том числе и самые элитные и индивидуальные.

    По скрину как-то вот сложно комментировать - там google position. Понятно, что там используется SE::Google, но будем корректными, мы обсуждаем не SE::Google::position.

    Текущая проблема тянется с лета, написано по ней очень много, и не стоит отвлекать внимание, если нечего сказать.
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.371
    Симпатии:
    2.101
    Просто в тесте мало попыток поставил, на саму суть это мало влияет.
    1*100, 500 попыток, без разгадывания
    [​IMG]
     
  9. seo-bro

    seo-bro A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 мар 2021
    Сообщения:
    10
    Симпатии:
    0
    Всегда удивляли такие душнилы, у которых если не знает чего-то, то этого не существует.

    Специально для таких SE::Google 10 по 10. И конечно же никакой больше инфы) Да и саппорт все расписал понятно.

    И если непонятна фраза "прокси с новым IP на каждый запрос" тоже помочь ничем не могу)
     

    Вложения:

  10. apistudio.ru

    apistudio.ru A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 фев 2018
    Сообщения:
    14
    Симпатии:
    9
    Понятно и ожидаемо, школота, проходим дальше)
     
    Dimazzan и seo-bro нравится это.
  11. romego

    romego A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 май 2020
    Сообщения:
    15
    Симпатии:
    1
    Правильный делаю вывод?
    1) Используем прокси a-parser
    2) Ставим кол-во попыток 500
    3) Парсинг 1*100
    4) В настройках парсера, ставлю пресеты для Recaptha 2, Anti-Gate: default
     
    #11 romego, 26 фев 2023
    Последнее редактирование: 27 фев 2023
  12. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.371
    Симпатии:
    2.101
    Если планируете парсить на попытках, то разгадывание рекаптчи не обязательно подключать.
    Если же планируете подключать разгадывание рекаптчи, то кол-во попыток можно задать меньшее.
    Насчет оптимального способа парсинга - лучше всего потестировать самостоятельно и выбрать наиболее оптимальный в вашей конкретной ситуации
     
    romego нравится это.
  13. romego

    romego A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 май 2020
    Сообщения:
    15
    Симпатии:
    1
    Версия: 1.2.1853
    Прокси: A-parser
    Метод: Без антикапччи, перебор прокси.
    На прошлой неделе % ошибок увеличился до 95%. Способ перестал работать.

    Есть ещё возможности для парсинга Google?
     
  14. romego

    romego A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 май 2020
    Сообщения:
    15
    Симпатии:
    1
    Версия: 1.2.1872
    Прокси: A-Parser (пробовал различные ipv6, ещё хуже)
    Метод: Без антикпчи, увеличил перебор прокси до 200 попыток. Увеличил время бана прокси для парсера. Уменьшило % ошибок (до 30%), но снимать стало ооочень долго. 40 000 запросов 2-3 дня снимает.

    У кого получилось настроить парсинг Google?
     
  15. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.371
    Симпатии:
    2.101
    Версия 1.2.1876, прокси из ЛК, 300 потоков, кол-во результатов 1*100, 500 попыток, все остальное по дефолту. Как видно на скриншоте, средняя скорость 267 запросов в минуту, соответственно 40к запросов при такой скорости будут обработаны за 2-3 часа.
    ,[​IMG]
     
  16. IgorSorokin

    IgorSorokin A-Parser Pro License
    A-Parser Pro

    Регистрация:
    4 мар 2021
    Сообщения:
    1
    Симпатии:
    0
    Я не знаю, виновен ли гугл. Но я был свидетелем, как обвал парсинга гугла начался с одной из обнов. Мои напарники, с которыми я паршу гугл пожаловались примерно одновременно, что с января-февраля гугл стало невозможно парсить. А я изменений в скорости вообще тогда не заметил. Тогда начали сравнивать настройки и оказалось, что разница была только в версиях парсера (у меня была более старая 1.2.1662). Товарищ подключал мою версию на своем железе и скорость была нормальной. У него скорость была раза в 4-5 ниже.
    Когда начали общаться с саппортом на эту тему и они начали тестить, немного упала скорость на старой версии, но на новых было без изменений.
     
  17. apistudio.ru

    apistudio.ru A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 фев 2018
    Сообщения:
    14
    Симпатии:
    9
    Подтверждаю наличие этой проблемы, пробовали на версии ещё более ранней 1.2.1646, скорость парсинга гугла чуть ли в 10 раз выше, чем в самой последней на этот момент бете 1.2.1895. Саппорт ответил, что о проблеме знают, работают над этим, но пока нет решения.

    Понимаю, что это очень противоречиво и сопряжено с трудностями, но надо бы всё же придумать, как реализовать ветку обновлений старых версий для таких случаев, когда можно внести мелкие изменения в регулярное выражение (за это время верстка гугла поменялась) и продолжать работу без потерь времени и средств у пользователей, ожидая, когда разработчикам удастся справится с проблемой.
     
  18. romego

    romego A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 май 2020
    Сообщения:
    15
    Симпатии:
    1
    А с чем может быть связано снижение Скорости?
    На скриншоте Скорость текущая/Общая: 333/267.

    На 100 потоков скорость 6/7.
    upload_2023-5-16_20-23-23.png
     
  19. Support Alex

    Support Alex Moderator
    Команда форума A-Parser Enterprise

    Регистрация:
    1 окт 2019
    Сообщения:
    278
    Симпатии:
    50
  20. romego

    romego A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 май 2020
    Сообщения:
    15
    Симпатии:
    1
    Спасибо, изучил. Там ответа на вопрос не нашел. Указаны 3 причины, мне не подходят.
    1) Ресурсы.
    С ними всё ок, машина холодная.
    upload_2023-5-17_23-10-55.png
    2) Скорость зависит от конкретной страницы.
    Парсим схожие выдачи.

    3) Скорость зависит от парсера.

    Используем одинаковый парсер SE: Google
     

Поделиться этой страницей