1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Определяем CMS для 1000000 доменов за 15 часов 1.0

Пример массового определения движков и демонстрация производительности

  1. Егор Ерохин

    Егор Ерохин A-Parser Pro License
    A-Parser Pro

    Регистрация:
    5 май 2020
    Сообщения:
    13
    Симпатии:
    3
    Обнаружил проблему с определением CMS OpenCart
    При выборе Ecommerce или Opencart или при любых других настройках
    CMS сайта не определяется, точнее определяется как unknown.
    примеры
    altek.ua
    audiodigital.ru

    Файл apps.json обновлен до поледней версии
    Прокси не используются.
    Другие детекты по странице проходят корректно, что свидетельствует о том, что код страницы передается в а-парсер без искажений.
     
  2. Support Vlad

    Support Vlad A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    6 апр 2020
    Сообщения:
    132
    Симпатии:
    34
    Парсер Rank::CMS Rank::CMS работает на базе расширения для браузера Wappalyzer. Для этих сайтов оно не определяет OpenCart.
    [​IMG] [​IMG]
     
  3. Егор Ерохин

    Егор Ерохин A-Parser Pro License
    A-Parser Pro

    Регистрация:
    5 май 2020
    Сообщения:
    13
    Симпатии:
    3
    Понял, спасибо, попробую прикрутить свое определение по признакам.
     
  4. seowin555

    seowin555 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 сен 2016
    Сообщения:
    187
    Симпатии:
    37
    Приветствую!
    Встал с таким вопросом, если сайт с протоколом https, а в запросах указан сайт с http, то парсер не видит cms.
    Подскажите, как решить данную проблему?

    И также тут же хотел узнать, а для чего здесь подключается парсер Net::HTTP как раз для таких случаев или чего-то другого?
     
  5. relay

    relay A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 июл 2013
    Сообщения:
    157
    Симпатии:
    103
    Нужен конкретный пример сайта
    На сайте может быть не настроен редирект с http на https, соот-но и парсер не определит cms
    Для изучения возможностей Net::HTTP для таких случаев, рекомендую прочитать - Все о редиректах
     
    seowin555 и Support нравится это.
  6. seowin555

    seowin555 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 сен 2016
    Сообщения:
    187
    Симпатии:
    37
    С этим разобрался, оказалось там дело в том, что в базе Wappalyzer нет многих признаков, поэтому просто cms не определялась.

    Но есть другая проблема, это проблема со скоростью парсинга, сколько бы я не делал потоков и пробовал разные варианты, не удается добиться скорости выше 1500..
    Версия а-парсера у меня последняя бета, сами ресурсы я предварительно прочекал на 200 ОК, сам парсер стоит на довольно хорошем выделенном сервере, с которым я работаю уже более 2 лет и весь софт у меня там.
    Настройки у меня такие https://prnt.sc/w33mn5 в пресете.
    Подскажите, что можно придумать?
     
  7. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Rank::CMS - это довольно тяжелый парсер, в зависимости от выбора в Check list к каждой получаемой странице может применяться очень много регулярных выражений, а это требует большого кол-ва системных ресурсов и времени. Возможно парсер упирается в производительность одного ядра процессора, тогда есть смысл запустить несколько копий.
     
    seowin555 нравится это.
  8. seowin555

    seowin555 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 сен 2016
    Сообщения:
    187
    Симпатии:
    37
    Понял вас, буду пробовать. А сейчас получается еще нет поддержки многоядерности в пределах одного парсера?

    И еще момент, можете подсказать для чего в этом парсере используется также парсер Net::HTTP? И как он работает?
    Я проверял работу с ним и без него, по скорости ничего не менялось.
     
  9. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Полноценной поддержки многоядерности еще нет.

    https://a-parser.com/threads/6552/
     
  10. Core

    Core A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2020
    Сообщения:
    11
    Симпатии:
    0
    Приветствую! Редиректы A-parser хорошо отрабатывает, а как сделать так чтобы в результативные файлы писался не тот вид который в файле запросов http://site.ru а тот который после редиректа то есть вариантов много что может быть после редиректа http://site.ru либо https://site.ru либо http://www.site.ru либо https://www.site.ru либо вообще http://?.ru или https://?.ru
     
  11. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Core нравится это.
  12. Core

    Core A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2020
    Сообщения:
    11
    Симпатии:
    0
    Благодарю, но куда бы не подставлял код не работает (
    Пробовал и в формат результата и в формат запроса подставлять, что-то делаю не так :( Не могли бы вы подсказать в какое поле подставить код чтобы работал? Формат результата у меня такой $query\n и такой $query;$p1.cms\n
     
  13. Core

    Core A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2020
    Сообщения:
    11
    Симпатии:
    0
    Прописывал вот так $response.Redirects.format('$URI\n--> ')$response.URI $query;$p1.cms\n и $response.URI $query;$p1.cms\n

    [​IMG]

    Эх поломал весь пресет, теперь вообще ничего не работает, надо изучать похоже лучше софт, а возможно ли обновления кода пресета чтобы работало с обработкой редиректа и сохранением протокола который стоит на сайте?
     
    #73 Core, 13 янв 2023
    Последнее редактирование: 13 янв 2023
  14. Core

    Core A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2020
    Сообщения:
    11
    Симпатии:
    0
    Проблема оказалась банальна, в массив результатов не выведена информация о протоколе.

    Пока использую костыли из двух парсеров, вопрос к администрации, можно ли доработать парсер и сделать вывод в массив результатов?

    upload_2023-1-14_13-33-7.png
     
  15. Core

    Core A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2020
    Сообщения:
    11
    Симпатии:
    0
    Скорость конечно оставляет желать лучшего в 1000 потоков с двумя парсерами :(
    upload_2023-1-14_13-38-31.png
     
  16. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Добавим $response в Rank::CMS в следующей бете
     
    Core нравится это.
  17. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Добавлено в 1.2.1778
    [​IMG]
     
    Core нравится это.
  18. Core

    Core A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2020
    Сообщения:
    11
    Симпатии:
    0
    Огромное вам спасибо!
     
  19. Celcumplit

    Celcumplit A-Parser Pro License
    A-Parser Pro

    Регистрация:
    28 сен 2022
    Сообщения:
    4
    Симпатии:
    0
    Ест рабочая версия этого парсера?
     
  20. JohnS

    JohnS A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    16 окт 2017
    Сообщения:
    14
    Симпатии:
    0

Поделиться этой страницей