В качестве базы для доменов используем топ-миллион доменов по Алексе, базу можно скачать тут:
Исходные данные:
Немного статистики:
Файлы результатов:
Значительно увеличить скорость парсинга можно путем уменьшения количества проверяемых CMS, на скриншоте пример задания в котором проверяется только WordPress, как видно скорость увеличилась более чем в 8 раз, при этом ресурсов сервера хватает для дальнейшего увеличения потоков. Такое задание выполнится всего за 2 часа
Исходные данные:
- Сервер с 4 ядерным процессором Intel(R) Core(TM) i7 CPU 950 @ 3.07GHz, 8 Гб памяти и каналом 100мбит\с
- В настройках парсера установлено использование 6 ядер CPU, т.к. процессор поддерживает 8 исполнительных ядер благодаря технологии Hyper-Threading, 2 ядра оставлены для стабильной работы системы
- Исходный файл с запросами содержит данные в формате <alexa-rank>,<domain>, миллион записей, каждый домен с новой строки. С помощью конструктора запросов разделяем домен и его ранк. Для парсера Rank::CMS необходимо указывать полную ссылку на сайт или страницу, поэтому в формате запроса добавим http://
- Используем парсер
Rank::CMS с настройками по умолчанию, указываем что парсинг будет производиться без прокси и максимум 3 попытки на запрос - Результат будем для удобства сохранять в двух форматах - в файл top-1m-cms.txt будем записывать домен, алекса ранк и название CMS; в папку top-1m/ будем сохранять домены автоматически сортируя имена файлов по названию CMS(т.е. в файле WordPress.txt будут только домены с вордпрессом и так аналогично для всех определившихся CMS)
- По умолчанию проверка выполняется на все CMS, форумные движки и Wiki-движки
Немного статистики:
- Скорость парсинга составила 1100 доменов в минуту
- Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
- Определено 126 различных CMS
- Топ 10 самых популярных CMS, первое значение определяет количество доменов:
Код:
209855 WordPress
23732 Joomla
22945 Drupal
6488 TYPO3 CMS
4917 vBulletin
3726 1C-Bitrix
2515 phpBB
2415 ExpressionEngine
2022 DataLife Engine
1928 Microsoft SharePoint
Код:
eyJwcmVzZXQiOiJSYW5rIENNUyBBbGV4YSB0b3AtMWtrIiwidmFsdWUiOnsicGFy
c2VycyI6W1siUmFuazo6Q01TIiwiZGVmYXVsdCIseyJ0eXBlIjoib3ZlcnJpZGUi
LCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfSx7InR5cGUiOiJvdmVycmlk
ZSIsImlkIjoicHJveHlyZXRyaWVzIiwidmFsdWUiOiIzIn1dXSwicmVzdWx0c0Zv
cm1hdCI6IiRxdWVyeTskcXVlcnkuYWxleGE7JHAxLmNtc1xcbiIsInJlc3VsdHNT
YXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoidG9wLTFtLWNtcy50eHQi
LCJhZGRpdGlvbmFsRm9ybWF0cyI6W1sidG9wLTFtLyR7cDEuY21zfS50eHQiLCIk
cXVlcnlcXG4iXV0sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijoi
aHR0cDovLyRxdWVyeSIsInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVk
UXVlcmllcyI6ZmFsc2UsImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJt
b3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0Fw
cGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOlt7InNvdXJjZSI6InF1ZXJ5IiwidHlw
ZSI6InN0cmluZ1NwbGl0Iiwic2VwYXJhdG9yIjoiLCIsInRvIjpbImFsZXhhIiwi
cXVlcnkiXX1dLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMi
OltdfX0=
Файлы результатов:
- Файл с исходными доменами, Алекса ранк и определившейся CMS, top-1m-cms.txt 37Мб
- Архив с отсортированными по CMS файлами, top-1m.zip 7.6Мб
Значительно увеличить скорость парсинга можно путем уменьшения количества проверяемых CMS, на скриншоте пример задания в котором проверяется только WordPress, как видно скорость увеличилась более чем в 8 раз, при этом ресурсов сервера хватает для дальнейшего увеличения потоков. Такое задание выполнится всего за 2 часа
Последнее редактирование:


