1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Определяем CMS для 1000000 доменов за 15 часов 1.0

Пример массового определения движков и демонстрация производительности

  1. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Подскажите пожалуйста, как подставлять результат в парсер PR. Пытаюсь сделать вот так:
    [​IMG]

    но при запуске вижу вот такое:
    [​IMG]
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    1) Во 2-м и 3-ем парсерах в Query format нужно писать $query.topdomain
    2) В 3-ем парсере лучше использовать уже готовый пресет Pages Count use Proxy
    3) В Формате результата ошибка: вместо $p2.totalcount нужно написать $p3.totalcount
    [​IMG]
     
    sergeda нравится это.
  3. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Что-то никак не удается заставить парсер определять CMS. Удалил уже все остальные парсеры, оставил только:
    [​IMG]

    В результате задача стоит на месте:
    [​IMG]
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Приведите пример сайтов, на которых пытаетесь определить CMS
     
  5. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Ну на скриншоте видно текущий запрос. Вот на нем как остановилось так и стоит. Не меняется
     
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Все работает:
    [​IMG]
    А вот ссылка, что на скриншоте - не работает. Попробуйте проверить доступность сайтов, которые вы проверяете, а также наличие файла aparser/files/Rank-CMS/apps.json и его содержимое.
     
    sergeda нравится это.
  7. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    За наводку на apps.json спасибо. В нем оказалась проблема. Точней в его отсутсвии
     
    Support нравится это.
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Как вариант, извлекаете Конструктором результатов доменную зону и подставляете ее в формат имени файла.
     
    Zlodeys нравится это.
  9. Zlodeys

    Zlodeys A-Parser Pro License
    A-Parser Pro

    Регистрация:
    2 фев 2016
    Сообщения:
    51
    Симпатии:
    30
    Вот этот вариант же сработает? http://a-parser.com/threads/1249/#post-3412
     
  10. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Да, можно и так.
     
    Zlodeys нравится это.
  11. Zlodeys

    Zlodeys A-Parser Pro License
    A-Parser Pro

    Регистрация:
    2 фев 2016
    Сообщения:
    51
    Симпатии:
    30
    Спасибо!
     
  12. uomi

    uomi A-Parser Pro License
    A-Parser Pro

    Регистрация:
    16 янв 2015
    Сообщения:
    14
    Симпатии:
    14
    подскажи, что прописать в Result format, чтоб в файл записывался результат в виде:
    http://a-parser.com - XenForo; Apache; Plesk; Yandex.Metrika; jQuery, т.е. всё, что смог определить, а не только первое значение cms?
     
    #32 uomi, 13 мар 2016
    Последнее редактирование: 13 мар 2016
  13. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Код:
    $query - $list.format('$cms; ')\n
     
    Zlodeys и uomi нравится это.
  14. binbash

    binbash A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    19 май 2016
    Сообщения:
    42
    Симпатии:
    8
    а детект происходит только по признакам главной/указанной паги? а то сейчас начал чекать и много сайтов, где явно видно, что стоит цмс (даже админка на дефолтном адресе), определяет как unknown

    можно же было приделать хоть обращения к стандартным файлам движка или какимто .js/.css/.txt. а то получается допиливать и допиливать ещё руками определялку, кстати можно как-то сделать, если цмс не определилась, подключается net:http и чекает мои признаки?
     
  15. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    По указанной странице, лучше всегда указывать главную

    нельзя
     
  16. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Возможно вы не выбрали нужные CMS в Check list? Сбросьте в личку несколько сайтов, которые у вас не определились.
     
  17. yadzha

    yadzha A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 июн 2013
    Сообщения:
    68
    Симпатии:
    6
    А можно как-то разогнать парсер побыстрее? Нужно прочекать 100млн доменов на наличие 4х популярных движков CMS.

    В настройках пресета ничего лишнего, никаких регекспов, логирование и проверка на уник выключены. В настройках парсера выставлен 1 запрос и 6 сек таймаут запроса - http://joxi.ru/YmEVNYYCeR9x26. Парсинг без соксов, общие настройки выставлены на 8 ядер. Канал на сервере 1 гбит.

    Ставлю 500 потоков. Скорость = 9000. Включаю 1000 потоков, скорость = 11500. Если включить 2 парсера параллельно на разных портах и выставить в каждом по 500 потоков, скорость все равно общая по 6000 на каждом порту. Процессор загружен на 10%, памяти хоть отбавляй. Система Windows Server 2012 R2.


    Подскажите плз, возможно как-нибудь раскочегарить скорость проверки в несколько раз, чтобы до 50% хотябы довести загрузку процессора? Почему при увеличении потоков в 2 раза, реальная скорость парсинга увеличивается незначительно?
     
    Bran нравится это.
  18. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    учитывая это явление можно предположить что дело где то в канале или dns, посмотри в сторону http://a-parser.com/wiki/additional-settings/#Дополнительные-настройки-через-конфигурационный-файл
     
    Bran нравится это.
  19. yadzha

    yadzha A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 июн 2013
    Сообщения:
    68
    Симпатии:
    6
    Спасибо за подсказу. Точно, ДНС не давал разогнаться. Добавил несколько разных ДНСок, скорость сразу в 3-4 раза выросла. Проц на 90% загружен, 80мбит канала забито парсингом. Любо дорого смотреть -))
     
    Metroid, Forbidden и Support нравится это.
  20. yadzha

    yadzha A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 июн 2013
    Сообщения:
    68
    Симпатии:
    6
    А есть какие-то ограничения на кол-во ДНС, с которыми работает парсер? Сколько можно добавить, 10, 100шт ?
     

Поделиться этой страницей