Полное описание Редактора заданий

9 янв 2017
  • Редактор заданий - это полноценный редактор заданий, который включает в себя выбор и детальную настройку для более чем 50-ти парсеров, а так же форматирование запросов и результатов по своему усмотрению.

    [​IMG]


    Подробное описание(top)


    Конфиг потоков (настройка потоков) - Возможность редактирования настроек потоков для текущего задания. По умолчанию создано 2 пресета на 20 и 100 потоков. Для редактирования нужно нажать [​IMG].
    Задание - Выбор ранее сохраненного задания со всеми настройками. Возможность [​IMG] Импорта и Экспорта задания, а так же настроек парсеров, которые участвуют в заданиях. C помощью него можно делиться готовыми пресетами друг с другом передавая код.

    Парсеры(top)


    [​IMG]
    [​IMG]
    • Добавить парсер - Добавление нового парсера в задание. В одном задании можно использовать одновременно несколько парсеров, что позволяет по одному запросу получить информацию с различных источников
    • Парсер - Выбор парсера
    • Настройки - Выбор сохраненных пресетов для парсеров. В настройках содержаться предустановленные пресеты. Детально редактировать каждый отдельный парсер можно нажатием на [​IMG]
    • Дополнительные функции - Обозначаются значком [​IMG]. Содержит в себе следующие инструменты для работы с парсером:
      • Add unique result - Уникализация любого результата по строке, домену, главному домену, папке, строке без учета параметров
      • Add result filter - Фильтрация любого результата по вхождению строки, эквивалентности строк, регулярному выражению, больше, меньше, равно и др.
      • Override preset - Быстрое переопределение настроек для парсера. Позволяет добавлять подстановки и форматировать запрос к нужному виду используя шаблоны, применяется для каждого запроса
      • Parse custom result - Парсинг любого результата с использованием регулярных выражений
      • Try in Parser Test - Инструмент для проверки составленного задания с выводом лога обработки запроса

      А так же дополнительные инструменты для парсеров [​IMG]SE::Google, [​IMG]SE::Yandex::WordStat, [​IMG]Net:HTTP, [​IMG]HTML::TextExtractor, [​IMG]HTML::LinkExtractor и парсеров подсказок :
      • Parse all results - Данная опция доступна для парсера [​IMG]SE::Google и позволяет обходить ограничения выдачи в 1000 результатов на один запрос
      • Parse to level - Опция для автоматического подставления спаршенных кейвордов заново в запросы
      • Check content - Опция проверяет, если регулярное выражение не сработало, то страница будет загружена заново с другим прокси
      • Use pages - Опция которая позволяет парсить несколько страниц по одному запросу с возможность подстановки номера страницы с определенным шагом
      • Check next page - RegEx который определяет существует ли следующая страница или нет
    • Формат результата - Для каждого парсера есть свой набор результатов. Просмотреть список доступных результатов можно наведя на парсер указателем. Формат результата можно указывать в удобном многострочном редакторе кликнув по [​IMG]. Можно использовать шаблоны в именах результирующих файлов, что позволяет автоматически создавать файлы и папки на основе текущей даты, по порядковому номеру запроса, по самому запросу и в любом другом формате

    Запросы(top)


    • Запрос из - Возможность выбора откуда загружать запросы - из текстового файла или из поля запросов. Большой список запросов необходимо сохранять в файл, который должен располагаться в папке queries/, после чего его можно будет выбрать в поле Выберите файл
    • Небольшое количество запросов(до 8кб) можно указывать напрямую в форму Введите запросы. Поддерживает макросы
    • Дополнительно доступен выбор в качестве запросов файлов из папки с результатами results/ и из папки с неудачными запросами failed/
    • Доступен многофайловый выбор, тогда для каждого файла будет создано отдельное задание

    • Формат запроса - Шаблон форматирования, применяемый для каждого запроса, позволяет добавлять подстановки.
      Поддерживает макросы
    • Опции
      • Уникальные запросы - Определяет делать ли запросы уникальными. В запросах могут быть нежелательные повторы - парсер автоматически отсеет их.
      • Сохранять неудачные запросы - Позволяет сохранять неудачные запросы которые можно повторно спарсить. Запросы сохраняются в папке queries/failed
      • Формат на всех уровнях - Включает применение общего формата запроса на всех уровнях при вложенном парсинге.
      • Конструктор запросов после формата - Если включено - общий формат запроса применяется перед применением Конструктора запросов. Если выключено - наоборот.
      • Конструктор запросов на всех уровнях - Включает применение Конструктора запросов на каждом уровне при вложенном парсинге.

    Результаты(top)


    • Опции
      • Уник по строке - Определяет делать результаты уникальными или нет. Это простой метод уникализации - после формирования конечного результата, он разбивается построчно и происходит отсеивание повторных строк
      • Перезаписать файл - Определяет нужно ли перезаписывать файл результатов или дополнять его.
        Для данной опции действуют такие правила:
        ▫ Если имя файла генерируется в процессе работы задания (динамически) - то файл перезаписывается во время выполнения задания
        ▫ Если имя файла статично, то перезапись происходит только во время запуска задания
        ▫ Макрос $datefile.format() - это исключение и он относится к статичным. Но если к нему дописать что-то кроме расширения, то это уже будет динамическое имя​
    • Имя файла - Имя файла для сохранения результата. Результаты сохраняются в папку results/

    Опции(top)


    • Вести лог - Определяет вести ли лог выполнения по каждому заданию
    • Сохранять уник - Возможность сохранять информацию об уникализации
      Допустим нам необходимо спарсить ссылки в одном задании, а в будущем спарсить еще ссылки по другим запросам, но при этом хотим чтобы сохранялись только новые ссылки:
      При первом парсинге мы создаем новую базу уникализации указывая её имя. При втором и последующем парсинге мы выбираем ранее созданную базу уникализации
    Больше настроек - Расширенные настройки для результатов. Включает в себя графы:
    • Начальный текст и Конечный текст - A-Parser может подставлять начальный и конечный текст в файл результата для формирования шапки CSV файла, для начальных и конечных тегов XML файла и тд.
    Добавить задание - После того как парсер настроен, можно перейти к запуску задания. Посмотреть статус выполнения задания можно во вкладке Очередь заданий.