Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга Определяем CMS для 1000000 доменов за 15 часов В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа Немного статистики: Скорость парсинга составила 1100 доменов в минуту Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki Определено 126 различных CMS Топ 10 самых популярных CMS, первое значение определяет количество доменов: Код: 209855 WordPress 23732 Joomla 22945 Drupal 6488 TYPO3 CMS 4917 vBulletin 3726 1C-Bitrix 2515 phpBB 2415 ExpressionEngine 2022 DataLife Engine 1928 Microsoft SharePoint Читать целиком » Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут Проверяем словарь Даля на частотность запросов в Яндексе используя парсер SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата Немного статистики: Парсинг 115390 ключевых слов занял всего 40 минут 80208 слов из 115390 имеют ненулевую статистику в Вордстате Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц Читать целиком » Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту В примере показывается как с помощью парсера Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake Пример разделен на 2 части: Сбор ссылок на анкеты из результатов поиска Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету" В результате получаем файл с примерно следующим содержимым: Код: http://vk.com/id1492 - none - none - none http://vk.com/id1485 - п. Сиверский - всё сложно - заходил 15 сентября в 1:34 http://vk.com/id1489 - Ленинград - none - Online http://vk.com/id1481 - Санкт-Петербург - none - заходила 48 минут назад http://vk.com/id1482 - град Поднебесный - не женат - Online http://vk.com/id1493 - none - none - none Читать целиком »