1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Улучшение Captcha solving profiles

Тема в разделе "Закрытые без версии", создана пользователем John, 5 май 2014.

  1. John

    John A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 ноя 2013
    Сообщения:
    48
    Симпатии:
    8
    В Апарсере есть замечательный HTTP парсер, который может почти все что нужно, но не может разгадывать капчи.

    Было бы здорово иметь возможность создавать профили настроек разгадывания капчи, которые бы позволяли указать парсеру, что:
    1) данный ответ сайта/сервиса содержит капчу
    2) урл картинки с капчей можно достать вот такой-то регуляркой (правда не знаю, что делать с flash капчами)
    3) дополнительные поля (типа captcha_id) можно достать таким-то регулярками
    4) после разгадывания капчи, нужно отправить запрос на такой то урл (шаблон урл с подстановкой всех параметров) методом GET или методом POST

    Эти пункты я привел для примера, возможно они должны быть другими (Форбидену виднее).

    Это позволит серьезно расширить функциональность Апарсера, а пользователи смогут самостоятельно создавать парсеры сервисов с капчей.
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.339
    Симпатии:
    1.799
    Идея конечно нужная и скорее всего будет в будущем, но пока бесполезная в виду отсутствия многоэтапного парсинга(цепочками) и ветвления логики на основе условий
     
  3. John

    John A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 ноя 2013
    Сообщения:
    48
    Симпатии:
    8
    Приведу пример своей задачи, чтобы вы могли оценить полезность.

    Мне нужно спарсить товары с Яндекс.Маркета.
    Я мог бы сделать несколько парсеров и запускать их руками последовательно:
    1) парсер списка товаров и урлов карточек товаров в нужных категориях (список категорий задается стартовыми урлами)
    2) парсер карточки товара по его урлу

    Все это можно сделать уже сейчас, если бы не капча.

    Парсинг цепочками был бы полезен для сбора стартовых урлов категорий, но без этого можно жить - например, собрав урлы нужных категорий руками.
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.339
    Симпатии:
    1.799
    дело в том что сама задача как раз подпадает под парсинг цепочками - вытащить каптчу и передать её парсеру Util::AntiGate, после чего результат передать уже в следующий парсер и т.д.
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.339
    Симпатии:
    1.799
    закрываю задачу т.к. теперь все это возможно реализовать через JavaScript парсеры
     
    Support нравится это.

Поделиться этой страницей