В этой версии был внедрен ряд качественных улучшений, призванных увеличить предельную скорость парсинга:
Быстрая обработка UTF-8, прирост скорости на некоторых задачах до 1.5х
Внедрен механизм анализа используемых переменных в результатах, что позволяет оптимизировать скорость извлекая только требуемые данные. Первым оптимизированным парсером стал SE::Google: двухкратный прирост предельной скорости парсинга при сборе только ссылок(7000-10000 запросов в минуту, по 100 результатов на запрос, другими словами теперь можно получить 1 миллион ссылок за 1-1.5 минуты)
Теперь информация о запросах $response формируется только по требованию
Оптимизирована работа шаблонизатора при использовании множества парсеров в одном задании
Другие улучшения:
Теперь при использовании опции "Запустить задание по завершению" используется имя пресета вместо номера задания из очереди
Добавлена возможность использовать цепочки заданий - запускать определенное задание после завершение текущего, с возможностью указать файл результатов первого задания, как файл запросов для следующего
Теперь JavaScript функции можно сохранять в настройках задания, что позволяет включать их при экспорте задания
При форматировании элементов массивов через метод .format теперь можно использовать все простые(Flat) переменные, которые выдает парсер или которые формируются используя Конструктор результатов
В прокси чекер добавлена опция Load limit count, позволяющая задать максимальное число прокси для загрузки с источников
В парсере Net::HTTP для опции Check content добавлен переключатель Match / Not Match позволяющий проверять не только наличие, но и отсутствие определенного контента на странице
Теперь файл задания не перезаписывается при отсутствии свободного места на диске
В этой версии проделана большая работа по добавлению поддержки агрегации запросов. Теперь парсер частотности ключевых слов SE::Yandex::Direct::Frequency может получать данные со скоростью 20000-50000 слов\минуту
Улучшения
Уменьшено потребление памяти при использовании большого числа потоков и\или нескольких парсеров в одном задании
Уменьшено потребление памяти при большой очереди завершенных заданий
В парсере SE::Yandex::Direct::Frequency добавлена возможность выбрать все регионы или выбрать несколько определенных
В парсере SE::Yandex::Direct::Frequency добавлена поддержка Яндекс аккаунтов, а так же поддержка AntiGate и парсинг по 500 ключевых слов за один запрос
В парсере SE::Yandex::Direct::Frequency добавлена возможность выбора периода за последний месяц, за определенный месяц, за квартал или за год
Для Windows и Linux улучшена поддержка юникода в именах файлах,...
12-й выпуск Сборника рецептов. В нем мы рассмотрим пример парсинга Instagram, проверим новую возможность вывода статистики и научимся составлять кастомные парсеры подсказок. А также:
Обзор вариантов представления результатов
Универсальный чекер страниц
Парсинг трафика и стоимости по ключевым словам из SEMrush
Обновление и улучшение пресетов для парсинга Авито и 2GIS
Парсинг Instagram
Instagram на сегодня является одним из самых популярных приложений для обмена фото с элементами социальной сети (осенью 2015 года аудитория превысила 400 млн пользователей). Такая популярность делает данный сервис привлекательным для парсинга, с целью получения различной информации. Как парсить Инстаграм с помощью А-Парсера - по ссылке выше.