Полное описание Редактора заданий

6 дек 2017
  • Редактор заданий - это полноценный редактор заданий, который включает в себя выбор и детальную настройку для более чем 60-ти парсеров, а так же форматирование запросов и результатов по своему усмотрению.
    [​IMG]



    Подробное описание(top)


    Конфиг потоков (Настройка потоков) - Возможность редактирования настроек потоков для текущего задания. По умолчанию создано 2 пресета на 20 и 100 потоков. Для редактирования нужно нажать [​IMG].
    Задание - Выбор ранее сохраненного задания со всеми настройками. Возможность [​IMG] Импорта и Экспорта задания. C помощью него можно делиться готовыми пресетами друг с другом передавая код. Можно экспортировать сразу несколько заданий, настройки парсеров, JavaScript парсеры, а также tools.js
    [​IMG]

    В интерфейсе выбора сохраненных заданий, пресеты можно сортировать по папкам любой вложенности:
    [​IMG]

    Парсеры(top)


    • Тест задания - позволяет запустить задания в тестовом режиме и посмотреть на предварительные результаты его выполнения
    • Конструктор запросов - Позволяет разделять исходный запрос на части и\или преобразовывать запросы
    [​IMG]
    [​IMG]
    • Добавить парсер - Добавление нового парсера в задание. В одном задании можно использовать одновременно несколько парсеров, что позволяет по одному запросу получить информацию с различных источников
    • Парсер - Выбор парсера
    • Настройки - Выбор сохраненных пресетов для парсеров. В настройках содержатся предустановленные пресеты. Детально редактировать каждый отдельный парсер можно нажатием на [​IMG]
    • Дополнительные функции - Обозначаются значком [​IMG]. Содержит в себе следующие инструменты для работы с парсером:
      • Add unique result - Уникализация любого результата по строке, домену, главному домену, папке, строке без учета параметров
      • Add result filter - Фильтрация любого результата по вхождению строки, эквивалентности строк, регулярному выражению, больше, меньше, равно и др.
      • Override preset - Быстрое переопределение настроек для парсера. Позволяет добавлять подстановки и форматировать запрос к нужному виду используя шаблоны, применяется для каждого запроса
      • Parse custom result - Парсинг любого результата с использованием регулярных выражений
      • Try in Parser Test - Инструмент для проверки составленного задания с выводом лога обработки запроса

      А так же дополнительные инструменты для парсеров [​IMG]SE::Google, [​IMG]SE::Yandex::WordStat, [​IMG]Net:HTTP, [​IMG]HTML::TextExtractor, [​IMG]HTML::LinkExtractor и парсеров подсказок :
      • Parse all results - Данная опция доступна для парсера [​IMG]SE::Google и позволяет обходить ограничения выдачи в 1000 результатов на один запрос
      • Parse to level - Опция для автоматического подставления спаршенных кейвордов заново в запросы
      • Check content - Опция проверяет, если регулярное выражение не сработало, то страница будет загружена заново с другим прокси
      • Use pages - Опция которая позволяет парсить несколько страниц по одному запросу с возможность подстановки номера страницы с определенным шагом
      • Check next page - RegEx который определяет существует ли следующая страница или нет
      • Page as new query - осуществляет переход на следующую страницу как новый запрос, это в свою очередь, позволяет убрать ограничение на количество страниц для перехода
    • Формат результата - Для каждого парсера есть свой набор результатов. Просмотреть список доступных результатов можно наведя на парсер указателем. Формат результата можно указывать в удобном многострочном редакторе кликнув по [​IMG]. Можно использовать шаблоны в именах результирующих файлов, что позволяет автоматически создавать файлы и папки на основе текущей даты, по порядковому номеру запроса, по самому запросу и в любом другом формате

    Запросы(top)


    • Запрос из - Возможность выбора откуда загружать запросы - из текстового файла или из поля запросов. Большой список запросов необходимо сохранять в файл, который должен располагаться в папке queries/, после чего его можно будет выбрать в поле Выберите файл
    • Небольшое количество запросов(до 8кб) можно указывать напрямую в форму Введите запросы. Поддерживает макросы
    • Дополнительно доступен выбор в качестве запросов файлов из папки с результатами results/ и из папки с неудачными запросами failed/
    • Доступен многофайловый выбор, тогда для каждого файла будет создано отдельное задание. Также появилась возможность выбора в качестве запроса целиком папки с файлами.

    • Формат запроса - Шаблон форматирования, применяемый для каждого запроса, позволяет добавлять подстановки.
      Поддерживает макросы
    • Опции
      • Уникальные запросы - Определяет делать ли запросы уникальными. В запросах могут быть нежелательные повторы - парсер автоматически отсеет их.
      • Сохранять неудачные запросы - Позволяет сохранять неудачные запросы которые можно повторно спарсить. Запросы сохраняются в папке queries/failed
      • Формат на всех уровнях - Включает применение общего формата запроса на всех уровнях при вложенном парсинге.
      • Конструктор запросов после формата - Если включено - общий формат запроса применяется перед применением Конструктора запросов. Если выключено - наоборот.
      • Конструктор запросов на всех уровнях - Включает применение Конструктора запросов на каждом уровне при вложенном парсинге.

    Результаты(top)


    • Опции
      • Уник по строке - Определяет делать результаты уникальными или нет. Это простой метод уникализации - после формирования конечного результата, он разбивается построчно и происходит отсеивание повторных строк
      • Перезаписать файл - Определяет нужно ли перезаписывать файл результатов или дополнять его.
        Для данной опции действуют такие правила:
        ▫ Если имя файла генерируется в процессе работы задания (динамически) - то файл перезаписывается во время выполнения задания
        ▫ Если имя файла статично, то перезапись происходит только во время запуска задания
        ▫ Макрос $datefile.format() - это исключение и он относится к статичным. Но если к нему дописать что-то кроме расширения, то это уже будет динамическое имя​
    • Имя файла - Имя файла для сохранения результата. Результаты сохраняются в папку results/

    Опции(top)


    • Вести лог - Определяет вести ли лог выполнения по каждому заданию
    • Сохранять уник - Возможность сохранять информацию об уникализации
      Допустим нам необходимо спарсить ссылки в одном задании, а в будущем спарсить еще ссылки по другим запросам, но при этом хотим чтобы сохранялись только новые ссылки:
      При первом парсинге мы создаем новую базу уникализации указывая её имя. При втором и последующем парсинге мы выбираем ранее созданную базу уникализации
    Больше настроек - Расширенные настройки для результатов. Включает в себя графы:
    • Начальный текст и Конечный текст - A-Parser может подставлять начальный и конечный текст в файл результата для формирования шапки CSV файла, для начальных и конечных тегов XML файла и тд.
    • Приоритет - задания с большим приоритетом будут получать потоки сразу после, завершения каждого запроса у заданий с меньшим приоритетом. Особенности:
      • Если у заданий приоритет одинаковый то преимущество отдается заданию которое было раньше добавлено по времени;
      • Работает только с динамическим лимитом потоков;
      • При добавлении задания через API необходимо указывать поле prio от 1 до 100(больше - выше).
    • Запустить по завершению - возможность запускать следующее задание, после завершение выполнения текущего. В настройках можно указать нужный конфигуратор потоков и чекбокс с названием «Использовать файл результатов для запроса», что позволяет использовать файл с результатом выполнения текущего задания, как источник запросов для задания указанного в выпадающем списке.
    • Переопределить tools.js - переопределяет существующий tools.js для текущего пресета, а также позволяет экспортировать только нужные функции вместе с пресетом.
    Добавить задание - После того как парсер настроен, можно перейти к запуску задания. Посмотреть статус выполнения задания можно во вкладке Очередь заданий.