Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Тема в разделе "Новости", создана пользователем Forbidden, 29 сен 2014.

  1. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    2.968
    Симпатии:
    1.559
    Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

    Определяем CMS для 1000000 доменов за 15 часов

    В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа

    [​IMG]

    Немного статистики:
    • Скорость парсинга составила 1100 доменов в минуту
    • Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
    • Определено 126 различных CMS
    • Топ 10 самых популярных CMS, первое значение определяет количество доменов:
    Код:
    209855 WordPress
    23732 Joomla
    22945 Drupal
    6488 TYPO3 CMS
    4917 vBulletin
    3726 1C-Bitrix
    2515 phpBB
    2415 ExpressionEngine
    2022 DataLife Engine
    1928 Microsoft SharePoint
    Читать целиком »

    Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут

    Проверяем словарь Даля на частотность запросов в Яндексе используя парсер SE::Yandex::WordStat SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата

    Немного статистики:
    • Парсинг 115390 ключевых слов занял всего 40 минут
    • 80208 слов из 115390 имеют ненулевую статистику в Вордстате
    • Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
    • Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц
    Читать целиком »

    Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту

    В примере показывается как с помощью парсера Net::HTTP Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake :)
    Пример разделен на 2 части:
    • Сбор ссылок на анкеты из результатов поиска
    • Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"
    В результате получаем файл с примерно следующим содержимым:
    Код:
    http://vk.com/id1492 - none - none - none
    http://vk.com/id1485 - п. Сиверский - всё сложно - заходил 15 сентября в 1:34
    http://vk.com/id1489 - Ленинград - none - Online
    http://vk.com/id1481 - Санкт-Петербург - none - заходила 48 минут назад
    http://vk.com/id1482 - град Поднебесный - не женат - Online
    http://vk.com/id1493 - none - none - none
    Читать целиком »
     
    List, Syrex и Владимир Щепилов нравится это.

Поделиться этой страницей