В Апарсере есть замечательный HTTP парсер, который может почти все что нужно, но не может разгадывать капчи. Было бы здорово иметь возможность создавать профили настроек разгадывания капчи, которые бы позволяли указать парсеру, что: 1) данный ответ сайта/сервиса содержит капчу 2) урл картинки с капчей можно достать вот такой-то регуляркой (правда не знаю, что делать с flash капчами) 3) дополнительные поля (типа captcha_id) можно достать таким-то регулярками 4) после разгадывания капчи, нужно отправить запрос на такой то урл (шаблон урл с подстановкой всех параметров) методом GET или методом POST Эти пункты я привел для примера, возможно они должны быть другими (Форбидену виднее). Это позволит серьезно расширить функциональность Апарсера, а пользователи смогут самостоятельно создавать парсеры сервисов с капчей.
Идея конечно нужная и скорее всего будет в будущем, но пока бесполезная в виду отсутствия многоэтапного парсинга(цепочками) и ветвления логики на основе условий
Приведу пример своей задачи, чтобы вы могли оценить полезность. Мне нужно спарсить товары с Яндекс.Маркета. Я мог бы сделать несколько парсеров и запускать их руками последовательно: 1) парсер списка товаров и урлов карточек товаров в нужных категориях (список категорий задается стартовыми урлами) 2) парсер карточки товара по его урлу Все это можно сделать уже сейчас, если бы не капча. Парсинг цепочками был бы полезен для сбора стартовых урлов категорий, но без этого можно жить - например, собрав урлы нужных категорий руками.
дело в том что сама задача как раз подпадает под парсинг цепочками - вытащить каптчу и передать её парсеру Util::AntiGate, после чего результат передать уже в следующий парсер и т.д.