Фильтрация по множеству признаков

Фильтрация по множеству признаков 2.0.0

Доступно владельцам лицензии
Минимальная версия A-Parser
1.2.1794
Как известно, для фильтрации в А-Парсере используется встроенный функционал фильтров. Но бывают ситуации, когда список признаков, наличие которых нужно проверять, очень большой и его сложно вписать в строку стандартного фильтра.

Начиная с версии 1.2.127 в A-Parser добавлена поддержка модулей Node.js. Благодаря этому появилась возможность читать список признаков из файла и использовать его для проверки страниц.

3cbbe_180315100634.png


Возможности
  • Удаление дублей из списка признаков
  • 2 типа признаков: строки или регулярные выражения
  • Эмуляция заголовков браузера
  • Вывод полного списка всех найденных на странице признаков (можно использовать для оптимизации: если в результат выводятся все найденные признаки, то на каждой странице парсер проверяет весь список признаков, иначе только до первого вхождения)
Особенности
  • Для чтения файла используется модуль fs
  • Используется мютекс для однократного чтения списка признаков и "расшаривания" его для всех потоков
  • Для облегчения понимания, код парсера снабжен подробными комментариями
Возможные настройки
  • Unique signatures - уникализация списка признаков
  • Ignore case - игнорировать регистр
  • Emulate browser headers - эмулировать заголовки браузера
  • User-Agent - юзерагент
  • Type of signatures - тип признаков в файле, возможные значения:
    • String - строки
    • Regular expressions - регулярные выражения
  • File with signatures - файл с признаками и путь к нему
В качестве запросов необходимо указывать ссылки.
В результат по-умолчанию будет выведена каждая ссылка, результат нахождения признаков (0 - не найдено, 1 - найдено) и список найденных признаков.
Список признаков по умолчанию необходимо разместить в каталоге А-Парсера по пути files/example/multifilter/signatures.txt, в формате один признак на строку. Кодировка - UTF-8. Если признаки в виде регулярных выражений, то необходимо соблюдать стандарт для JavaScript. При этом регулярные выражения не нужно ограничивать слешами, а также не нужно указывать флаги.

P.S. Данный пример также можно использовать для решения этой задачи: https://a-parser.com/threads/2995/
Автор
Support
Загрузок
40
Просмотры
42
Первый выпуск
Обновление

Рейтинги

0,00 звёзд Оценок: 0

Ещё ресурсы от Support

Последние обновления

  1. Обновление 2.0.0

    Парсер переписан на JS APIv2 Исправлен баг с дублированием сигнатур
Назад
Верх