Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга
Определяем CMS для 1000000 доменов за 15 часов
В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа
Немного статистики:
Читать целиком »
Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
http://a-parser.com/threads/1245/
Проверяем словарь Даля на частотность запросов в Яндексе используя парсер
SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата
Немного статистики:
Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
http://a-parser.com/threads/1243/
В примере показывается как с помощью парсера
Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake 
Пример разделен на 2 части:
Читать целиком »
Определяем CMS для 1000000 доменов за 15 часов
В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа
Немного статистики:
- Скорость парсинга составила 1100 доменов в минуту
- Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
- Определено 126 различных CMS
- Топ 10 самых популярных CMS, первое значение определяет количество доменов:
Код:
209855 WordPress
23732 Joomla
22945 Drupal
6488 TYPO3 CMS
4917 vBulletin
3726 1C-Bitrix
2515 phpBB
2415 ExpressionEngine
2022 DataLife Engine
1928 Microsoft SharePoint
Читать целиком »
Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
http://a-parser.com/threads/1245/
Проверяем словарь Даля на частотность запросов в Яндексе используя парсер
SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки ВордстатаНемного статистики:
- Парсинг 115390 ключевых слов занял всего 40 минут
- 80208 слов из 115390 имеют ненулевую статистику в Вордстате
- Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
- Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц
Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
http://a-parser.com/threads/1243/
В примере показывается как с помощью парсера
Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake Пример разделен на 2 части:
- Сбор ссылок на анкеты из результатов поиска
- Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"
Код:
http://vk.com/id1492 - none - none - none
http://vk.com/id1485 - п. Сиверский - всё сложно - заходил 15 сентября в 1:34
http://vk.com/id1489 - Ленинград - none - Online
http://vk.com/id1481 - Санкт-Петербург - none - заходила 48 минут назад
http://vk.com/id1482 - град Поднебесный - не женат - Online
http://vk.com/id1493 - none - none - none
Читать целиком »