В этой версии проделана большая работа по улучшению проверки прокси и добавлению возможности использования разных источников прокси:
Появилась возможность запускать сразу несколько прокси чекеров, каждый поддерживает собственные настройки и собственный рабочий каталог с возможностью указать различные источники проксей
В настройках задания, появилась возможность указать прокси от каких чекеров должны использоваться(выбор между всеми или перечисление конкретных)
Более того в одном задании каждый парсер может использовать различные источники прокси
Добавлен график живых прокси и статистика по обработке источников
Уменьшено потребление памяти при большом числе живых прокси
В API теперь возможно получить список всех живых прокси, а также список прокси для конкретных прокси чекеров
Благодаря этим нововведениям появилась возможность раздельной работы с разными прокси серверами, когда одни прокси подходят для парсинга сайтов, другие лучше для парсинга...
13-й выпуск Сборника рецептов. В нем мы научимся сохранять результат в файл дампа SQL, который будет сразу готов для импорта в базу данных; познакомимся с очень полезным инструментом $tools.query, с помощью которого можно объединять несколько заданий в одно и делать другие интересные вещи; а также увидим еще несколько полезных рецептов.
Вывод результата в формате дампа SQL
С вопросом "можно ли сохранять результаты сразу в базу данных" очень часто обращаюся пользователи в техподдержку. И так, как на данный момент напрямую сохранять результаты в БД нет возможности (но планируется), то предлагаю вариант выводить их в файл дампа, а потом импортировать в базу данных. Как это делается - показано по ссылке выше.
Обзор инструмента $tools.query
$tools.query довольно часто встречается в примерах на форуме. В А-Парсере этот инструмент появился уже больше года назад, но обзора по нему...
В этой версии был внедрен ряд качественных улучшений, призванных увеличить предельную скорость парсинга:
Быстрая обработка UTF-8, прирост скорости на некоторых задачах до 1.5х
Внедрен механизм анализа используемых переменных в результатах, что позволяет оптимизировать скорость извлекая только требуемые данные. Первым оптимизированным парсером стал SE::Google: двухкратный прирост предельной скорости парсинга при сборе только ссылок(7000-10000 запросов в минуту, по 100 результатов на запрос, другими словами теперь можно получить 1 миллион ссылок за 1-1.5 минуты)
Теперь информация о запросах $response формируется только по требованию
Оптимизирована работа шаблонизатора при использовании множества парсеров в одном задании
Другие улучшения:
Теперь при использовании опции "Запустить задание по завершению" используется имя пресета вместо номера задания из очереди
Добавлена возможность использовать цепочки заданий - запускать определенное задание после завершение текущего, с возможностью указать файл результатов первого задания, как файл запросов для следующего
Теперь JavaScript функции можно сохранять в настройках задания, что позволяет включать их при экспорте задания
При форматировании элементов массивов через метод .format теперь можно использовать все простые(Flat) переменные, которые выдает парсер или которые формируются используя Конструктор результатов
В прокси чекер добавлена опция Load limit count, позволяющая задать максимальное число прокси для загрузки с источников
В парсере Net::HTTP для опции Check content добавлен переключатель Match / Not Match позволяющий проверять не только наличие, но и отсутствие определенного контента на странице
Теперь файл задания не перезаписывается при отсутствии свободного места на диске