Определяем CMS для 1000000 доменов за 15 часов

Пресет Определяем CMS для 1000000 доменов за 15 часов 1.0

Доступно владельцам лицензии
Обнаружил проблему с определением CMS OpenCart
При выборе Ecommerce или Opencart или при любых других настройках
CMS сайта не определяется, точнее определяется как unknown.
примеры
altek.ua
audiodigital.ru

Файл apps.json обновлен до поледней версии
Прокси не используются.
Другие детекты по странице проходят корректно, что свидетельствует о том, что код страницы передается в а-парсер без искажений.
 
Обнаружил проблему с определением CMS OpenCart
При выборе Ecommerce или Opencart или при любых других настройках
CMS сайта не определяется, точнее определяется как unknown.
примеры
altek.ua
audiodigital.ru

Файл apps.json обновлен до поледней версии
Прокси не используются.
Другие детекты по странице проходят корректно, что свидетельствует о том, что код страницы передается в а-парсер без искажений.
Парсер Rank::CMS Rank::CMS работает на базе расширения для браузера Wappalyzer. Для этих сайтов оно не определяет OpenCart.
Vintazh_Audio_Komissionnyi_internet_magazin_-_Google_Chrome_2020-05-08_12.12.44.png
Sonyachn%D1%96_panel%D1%96%2C_batare%D1%97_ALTEK._Kupiti_v_Ukra%D1%97n%D1%96._-_Google_Chrome_2020-05-08_12.12.07.png
 
Приветствую!
Встал с таким вопросом, если сайт с протоколом https, а в запросах указан сайт с http, то парсер не видит cms.
Подскажите, как решить данную проблему?

И также тут же хотел узнать, а для чего здесь подключается парсер Net::HTTP как раз для таких случаев или чего-то другого?
 
Приветствую!
Встал с таким вопросом, если сайт с протоколом https, а в запросах указан сайт с http, то парсер не видит cms.
Подскажите, как решить данную проблему?

И также тут же хотел узнать, а для чего здесь подключается парсер Net::HTTP как раз для таких случаев или чего-то другого?
Нужен конкретный пример сайта
На сайте может быть не настроен редирект с http на https, соот-но и парсер не определит cms
Для изучения возможностей Net::HTTP для таких случаев, рекомендую прочитать - Все о редиректах
 
Нужен конкретный пример сайта
На сайте может быть не настроен редирект с http на https, соот-но и парсер не определит cms
Для изучения возможностей Net::HTTP для таких случаев, рекомендую прочитать - Все о редиректах
С этим разобрался, оказалось там дело в том, что в базе Wappalyzer нет многих признаков, поэтому просто cms не определялась.

Но есть другая проблема, это проблема со скоростью парсинга, сколько бы я не делал потоков и пробовал разные варианты, не удается добиться скорости выше 1500..
Версия а-парсера у меня последняя бета, сами ресурсы я предварительно прочекал на 200 ОК, сам парсер стоит на довольно хорошем выделенном сервере, с которым я работаю уже более 2 лет и весь софт у меня там.
Настройки у меня такие https://prnt.sc/w33mn5 в пресете.
Подскажите, что можно придумать?
 
Rank::CMS - это довольно тяжелый парсер, в зависимости от выбора в Check list к каждой получаемой странице может применяться очень много регулярных выражений, а это требует большого кол-ва системных ресурсов и времени. Возможно парсер упирается в производительность одного ядра процессора, тогда есть смысл запустить несколько копий.
 
Rank::CMS - это довольно тяжелый парсер, в зависимости от выбора в Check list к каждой получаемой странице может применяться очень много регулярных выражений, а это требует большого кол-ва системных ресурсов и времени. Возможно парсер упирается в производительность одного ядра процессора, тогда есть смысл запустить несколько копий.
Понял вас, буду пробовать. А сейчас получается еще нет поддержки многоядерности в пределах одного парсера?

И еще момент, можете подсказать для чего в этом парсере используется также парсер Net::HTTP? И как он работает?
Я проверял работу с ним и без него, по скорости ничего не менялось.
 
еще нет поддержки многоядерности в пределах одного парсера?
Полноценной поддержки многоядерности еще нет.

И еще момент, можете подсказать для чего в этом парсере используется также парсер Net::HTTP? И как он работает?
https://a-parser.com/threads/6552/
 
Приветствую! Редиректы A-parser хорошо отрабатывает, а как сделать так чтобы в результативные файлы писался не тот вид который в файле запросов http://site.ru а тот который после редиректа то есть вариантов много что может быть после редиректа http://site.ru либо https://site.ru либо http://www.site.ru либо https://www.site.ru либо вообще http://?.ru или https://?.ru
 

Благодарю, но куда бы не подставлял код не работает (
Пробовал и в формат результата и в формат запроса подставлять, что-то делаю не так :( Не могли бы вы подсказать в какое поле подставить код чтобы работал? Формат результата у меня такой $query\n и такой $query;$p1.cms\n
 
Прописывал вот так $response.Redirects.format('$URI\n--> ')$response.URI $query;$p1.cms\n и $response.URI $query;$p1.cms\n

66b0da774e.jpg


Эх поломал весь пресет, теперь вообще ничего не работает, надо изучать похоже лучше софт, а возможно ли обновления кода пресета чтобы работало с обработкой редиректа и сохранением протокола который стоит на сайте?
 
Последнее редактирование:
Проблема оказалась банальна, в массив результатов не выведена информация о протоколе.

Пока использую костыли из двух парсеров, вопрос к администрации, можно ли доработать парсер и сделать вывод в массив результатов?

upload_2023-1-14_13-33-7.png
 
Скорость конечно оставляет желать лучшего в 1000 потоков с двумя парсерами :(
upload_2023-1-14_13-38-31.png
 
Добавим $response в Rank::CMS в следующей бете
 
  • Like
Реакции: Core
Назад
Верх