1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Знатоки парсинга Google - откликнитесь!

Тема в разделе "Делимся опытом", создана пользователем red2see, 12 апр 2018.

Метки:
  1. red2see

    red2see New Member

    Регистрация:
    12 апр 2018
    Сообщения:
    1
    Симпатии:
    0
    Есть проблема, которую не можем решить. Нужно парсить ежедневно 10 000 000 запросов в поисковой выдаче Google.

    На данный момент, мы в парсим 100 позиций выдачи гугла порядка 500к - 1.5 милионов запросов в день. До того, как гугл перешел c цифровой капчи на recaptcha2, для решения капч мы использовали capmonster2 и скорость была около 4к в минуту. После перехода на новую капчу, капмонстр перестал справляться с нагрузкой, в связи с чем было решено попробовать отказаться от него. Пробовали сервисы, в которых оплата идет за определенное количество решенных капч, но они оказались не эффективными, так-как время решения капчи больше, чем выигранное благодаря этому время и средняя скорость еще меньше, чем вообще без разгадывания капчи. Без разгадывания капчи скорость так же очень низкая, варьируется от 50 до 700 запросов в минуту. Дополнительные прокся не сильно помогают, так-как в начале скорость нормальная (около 2к/минуту), но очень быстро запросы банятся и скорость снова падает.
    Наверно делаем что-то не так.
     
  2. johnsmith

    johnsmith A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    13 мар 2013
    Сообщения:
    63
    Симпатии:
    31
    xevil временное решение, к тому же дорогое для масштабирования, уменьшить аппетит и парсить что надо, а не всякий мусор
     
    Vvtex нравится это.
  3. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    254
    Симпатии:
    60
    дорогое? самый дешевый вариант из всех. Если вы имеете ввиду дорого, в плане ничего не платить или платить за сервера, то об этом можно забыть. дешевых решений как раньше пока не существует. Ждем пока xevil оптимизирует свое решение, на днях что-то обещают.
     
  4. apistudio.ru

    apistudio.ru A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 фев 2018
    Сообщения:
    14
    Симпатии:
    9
    Связка апарсера+xevil+нормальные прокси с ротацией - всё прекрасно работает на 200 потоках, количество неудачных запросов практически на нуле, хотя да - нужно мощное железо для xevil.
     
    ZogSystem нравится это.
  5. Oleg

    Oleg New Member

    Регистрация:
    22 фев 2015
    Сообщения:
    1
    Симпатии:
    0
    Что-то не совсем получается парсить на 200 потоков, с таким количеством разгадывания ре-капчи. Можешь проконсультировать, как добиться данных результатов.
     
  6. Vvtex

    Vvtex A-Parser Pro License
    A-Parser Pro

    Регистрация:
    9 окт 2017
    Сообщения:
    124
    Симпатии:
    24
    железо надо хорошее и будет вам 200 потоков. +много хороших, надёжных прокси.
     
    #6 Vvtex, 13 авг 2018
    Последнее редактирование: 13 авг 2018
  7. relay

    relay A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 июл 2013
    Сообщения:
    157
    Симпатии:
    102
    Если есть много хороших, надёжных прокси, рекапчу можно не гадать, только попыток побольше выставить, все летать будет
     
    d4k нравится это.
  8. Vvtex

    Vvtex A-Parser Pro License
    A-Parser Pro

    Регистрация:
    9 окт 2017
    Сообщения:
    124
    Симпатии:
    24
    и так всё летает.
     
  9. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    254
    Симпатии:
    60
    Сейчас с парсингом с помощью гадания рекапчи не всё так хорошо, как раньше. Рекапчу разгадать не проблема, проблема в другом, гугл палит что гадание рекапчи и запрос страницы идут с разных ip и очень часто просто повторно капчу подсовывает. А-parser не поддерживает (кажется api antigate v2), чтобы гадание рекапчи шло бы с тем же ip и т.п. параметрами, что и запрос основной страницы.
     
  10. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Непосредственно Util::ReCaptcha2 Util::ReCaptcha2 поддерживает оба метода: ProxyLess (без передачи прокси) и ProxyOn (с передачей прокси и юзерагента). Но в SE::Google::Modern SE::Google::Modern на данный момент момент поддерживается только ProxyLess метод, как минимум по 2-м причинам:
    - Гугл не требует жесткого соответствия IP с которого запрашивалась страница и разгадывается рекаптча
    - Прокси с привязкой к IP не будут работать на сервисе разгадывания
    Возможно, в ближайших сборках мы добавим в виде эксперементальной опции возможность включить ProxyOn метод.
     
    Vvtex нравится это.
  11. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    254
    Симпатии:
    60
    У меня есть возможность всё это протестировать в боевом режиме, если вы добавите такую опцию, хотя бы эксперементально, то было бы отлично. Хочется всё это проверить.
     
    Vvtex нравится это.
  12. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    @malexoid а какие сервисы поддерживают ProxyOn метод? По моим тестам точно поддерживает anti-captcha. Rucaptcha и Xevil - не поддерживают
     
  13. Vvtex

    Vvtex A-Parser Pro License
    A-Parser Pro

    Регистрация:
    9 окт 2017
    Сообщения:
    124
    Симпатии:
    24
    Xevil и anti-captcha в паре могут работать?
     
  14. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Нет, какой в этом смысл?
     
  15. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    254
    Симпатии:
    60
    у меня xevil beta, и там есть поддержка api antigate v2, но я его сам не тестировал
     
  16. romego

    romego A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 май 2020
    Сообщения:
    15
    Симпатии:
    1
    Удалось решить задачу?
    Расскажите как!
     
  17. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    254
    Симпатии:
    60
    Два варианта либо
    1. нужны деньги на пулы проксей ipv4, можно серверные обычные (много разных)
    либо
    2. нужны деньги на хостинги с ipv6 (много разных и постоянно их менять как забанят) либо самому сетки каждый раз менять при бане.

    + нужно будет несколько серверов для решения рекапчи2

    Короче есть деньги и ресурсы человеческие - есть парсинг, проблем в данный момент нет.
     
    stive84 нравится это.
  18. romego

    romego A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 май 2020
    Сообщения:
    15
    Симпатии:
    1
    1) Какое кол-во проксей потребуется для парсинга 50 000 запросов в час?
    2) Тестировали большое кол-во сервисов подписки ipv6, но ничего не подходит.
     

Поделиться этой страницей