Определяем CMS для 1000000 доменов за 15 часов

Пресет Определяем CMS для 1000000 доменов за 15 часов 1.0

Доступно владельцам лицензии
Похожим образом сортируете и по CMS: $p2.cms/${p1.pr}.txt
Получим папки с названиями движков, а в них файлы с индексами в именах и содержащие ссылки внутри.
Чтобы парсить PR для главной страницы домена, необходимо воспользоваться в Конструкторе запросов функцией Extract domain, и подставлять полученный результат в парсер PR.

Подскажите пожалуйста, как подставлять результат в парсер PR. Пытаюсь сделать вот так:
download


но при запуске вижу вот такое:
download
 
Подскажите пожалуйста, как подставлять результат в парсер PR.
1) Во 2-м и 3-ем парсерах в Query format нужно писать $query.topdomain
2) В 3-ем парсере лучше использовать уже готовый пресет Pages Count use Proxy
3) В Формате результата ошибка: вместо $p2.totalcount нужно написать $p3.totalcount
6AFvm.png
 
Что-то никак не удается заставить парсер определять CMS. Удалил уже все остальные парсеры, оставил только:
download


В результате задача стоит на месте:
download
 
Все работает:
s5ZD1.png

А вот ссылка, что на скриншоте - не работает. Попробуйте проверить доступность сайтов, которые вы проверяете, а также наличие файла aparser/files/Rank-CMS/apps.json и его содержимое.
 
Все работает:
s5ZD1.png

А вот ссылка, что на скриншоте - не работает. Попробуйте проверить доступность сайтов, которые вы проверяете, а также наличие файла aparser/files/Rank-CMS/apps.json и его содержимое.

За наводку на apps.json спасибо. В нем оказалась проблема. Точней в его отсутсвии
 
Как вариант, извлекаете Конструктором результатов доменную зону и подставляете ее в формат имени файла.
 
это откуда вывод? есть массив $list с элементами $cms и $cat:
2K8UX.png

подскажи, что прописать в Result format, чтоб в файл записывался результат в виде:
http://a-parser.com - XenForo; Apache; Plesk; Yandex.Metrika; jQuery, т.е. всё, что смог определить, а не только первое значение cms?
 
Последнее редактирование:
а детект происходит только по признакам главной/указанной паги? а то сейчас начал чекать и много сайтов, где явно видно, что стоит цмс (даже админка на дефолтном адресе), определяет как unknown

можно же было приделать хоть обращения к стандартным файлам движка или какимто .js/.css/.txt. а то получается допиливать и допиливать ещё руками определялку, кстати можно как-то сделать, если цмс не определилась, подключается net:http и чекает мои признаки?
 
а детект происходит только по признакам главной/указанной паги? а то сейчас начал чекать и много сайтов, где явно видно, что стоит цмс (даже админка на дефолтном адресе), определяет как unknown

По указанной странице, лучше всегда указывать главную

можно же было приделать хоть обращения к стандартным файлам движка или какимто .js/.css/.txt. а то получается допиливать и допиливать ещё руками определялку, кстати можно как-то сделать, если цмс не определилась, подключается net:http и чекает мои признаки?
нельзя
 
начал чекать и много сайтов, где явно видно, что стоит цмс (даже админка на дефолтном адресе), определяет как unknown
Возможно вы не выбрали нужные CMS в Check list? Сбросьте в личку несколько сайтов, которые у вас не определились.
 
А можно как-то разогнать парсер побыстрее? Нужно прочекать 100млн доменов на наличие 4х популярных движков CMS.

В настройках пресета ничего лишнего, никаких регекспов, логирование и проверка на уник выключены. В настройках парсера выставлен 1 запрос и 6 сек таймаут запроса - http://joxi.ru/YmEVNYYCeR9x26. Парсинг без соксов, общие настройки выставлены на 8 ядер. Канал на сервере 1 гбит.

Ставлю 500 потоков. Скорость = 9000. Включаю 1000 потоков, скорость = 11500. Если включить 2 парсера параллельно на разных портах и выставить в каждом по 500 потоков, скорость все равно общая по 6000 на каждом порту. Процессор загружен на 10%, памяти хоть отбавляй. Система Windows Server 2012 R2.


Подскажите плз, возможно как-нибудь раскочегарить скорость проверки в несколько раз, чтобы до 50% хотябы довести загрузку процессора? Почему при увеличении потоков в 2 раза, реальная скорость парсинга увеличивается незначительно?
 
  • Like
Реакции: Bran
сли включить 2 парсера параллельно на разных портах и выставить в каждом по 500 потоков, скорость все равно общая по 6000 на каждом порту.
учитывая это явление можно предположить что дело где то в канале или dns, посмотри в сторону http://a-parser.com/wiki/additional-settings/#Дополнительные-настройки-через-конфигурационный-файл
 
  • Like
Реакции: Bran
Спасибо за подсказу. Точно, ДНС не давал разогнаться. Добавил несколько разных ДНСок, скорость сразу в 3-4 раза выросла. Проц на 90% загружен, 80мбит канала забито парсингом. Любо дорого смотреть -))
 
А есть какие-то ограничения на кол-во ДНС, с которыми работает парсер? Сколько можно добавить, 10, 100шт ?
 
Назад
Верх