1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 400+ и мы растем!
    Скрыть объявление

Подсказки

3 сен 2013


  • Данная страница используется для автоматической генерации подсказок в парсере
    Подсказки доступны при наведении указателя мыши на нужный элемент в самом парсере


    AddTask(top)



    Config Preset(top)


    Выбор настроек потоков для текущего задания, для редактирования нажмите карандаш.

    Task Preset(top)


    Выбор ранее сохранённого задания. При создании задания можно сохранить все его настройки, чтобы в будущем просто выбрать его из списка.

    Save Preset(top)


    Сохранение пресета задания под текущим именем указанным в Task preset. Пресет с именем default нельзя изменять - необходимо сохранить под новым именем.

    Save Preset As New(top)


    Сохранение пресета задания под новым именем.

    Add Parser(top)


    Добавление нового парсера в задание. В одном задании можно использовать одновременно несколько парсеров, что позволяет по одному запросу получить информацию с различных источников(например ссылки с Google и Yahoo или различные параметры домена, такие как дату регистрации, PR, количество страниц в индексе и т.д.), и объединить результат со всех парсеров с помощью Result format.

    Query Format(top)


    Шаблон форматирования, применяемый для каждого запроса, позволяет добавлять подстановки
    Поддерживает следующие макросы:

    {query} - исходный запрос, примеры:
    "{query}", site:{query}, info:{query}, http://{query}/

    {az:START:END} - подстановка цифро-символьной последовательности, примеры:
    {az:a:z} - подстановка всех символов от a до z(a, b, c, ..., x, z)
    {az:aaa:zzz} - подстановка всех символов от aaa до zzz(aaa, aab, aac, ..., zzx, zzz)
    {az:a:zz} - подстановка всех символов от a до zz(a, b, c, ... aa, ab, ..., zx, zz)
    {az:00:99} - подстановка всех чисел от 00 до 99(00, 01, 02, ..., 98, 99)
    {az:а:яяя} - подстановка всех кирилических символов от а до яяя(а, б, ... аа, аб, ... яяю, яяя)

    {num:START:END} - подстановка чисел в указанном интервале, пример:
    {num:1:1000} - подстановка всех чисел от 1 до 1000(1, 2, 4 ..., 999, 1000)

    {each:WORD1,WORD2,...} - подстановка указанных слов WORD1, WORD2 и т.д., длина не ограничена, примеры:
    {each:green,blue,red,black} - подстановка слов green, blue, red, black
    {each:,buy,sell} - подстановка пустого слова, затем buy и sell

    {subs:NAME} - подстановка дополнительных слов из файлов в папке queries/subs/, пример:
    {subs:zones} - подстановка всех строк из файла queries/subs/zones.txt

    Result format(top)


    Позволяет задать формат результата как при использовании одного парсера, так и при использовании нескольких парсеров, макросы:

    parserN(RESULT) - указывает с какого парсера N вывести результат RESULT
    Число N указывает на номер парсера, отображаемый перед каждым выбранным парсером
    Вместо RESULT подставляются макрос, указывающий какой результат от парсера необходимо вывести
    Каждый парсер имеет свой набор результатов, например парсер SE::Google в качестве результата может выдавать списки ссылок, анкоров, сниппетов, а также количество страниц. Список возможных результатов можно просмотреть наведя на парсер указатель мыши.

    {query} - отображает текущий запрос
    {origquery} - отображает текущий запрос до форматирования через Query format
    {firstquery} - отображает исходный запрос при использовании опций Parse to level и Parse all results
    {querynum} - отображает порядковый номер запроса
    {lvl} - отображает номер вложенности запроса при многоуровнем парсинге
    Пример, выберем один парсер - SE::Google и пресет 1000 Links use Proxy, в поле Queries впишем 2 запроса test1 и test2, в Result Format запишем:
    {query}: parser1({totalcount}\nserp[{link}\n])

    Результат:
    Разберем подробнее:
    {query} - выводит запрос
    parser1(...) - выводит информацию по парсеру 1(SE::Google):
    • {totalcount} - общее число страниц в Google по данному запросу
    • serp[{link}\n] - выводит список ссылок.
    Дополнительные возможности массивов:
    • {num} - текущая позиция в массиве, начало с нуля
    • {query} - запрос, позволяет вывести запрос для каждого элемента массива
    • array[...][N] и array[...][N-M] - выводит результаты на указанной позиции или на интервале
    • array[].size - выводит количество элементов в массиве

    Queries from(top)


    Определяет откуда брать запросы для парсинга.
    Большой список запросов необходимо сохранять в файл, который должен располагаться в папке queries/, после чего его можно будет выбрать в поле Select File
    Небольшое количество запросов(до 8кб) можно указывать напрямую в форму, для этого необходимо выбрать Queries from: text
    Дополнительно доступен выбор в качестве запросов файлов из папки с результатами results/

    Unique queries(top)


    Определяет делать ли запросы уникальными, необходимо в 2ух случаях:
    • В запросах могут быть нежелательные повторы - парсер автоматически отсеит их
    • При использовании опции Parse to level возможны подстановки ранее пройденых запросов, что может привести к зацикливанию парсинга. При использовании Parse to level необходимо обязательно выбирать Unique queries

    Make unique(top)


    Определяет делать результаты уникальными или нет. Это простой метод уникализации - после формирования конечного результата он разбивается построчно и происходит отсеивание повторных строк
    Для того чтобы делать уникализацию по домену, сабдомену, папке и т.д. необходимо использовать опцию Add unique results, которую можно выбрать нажав иконку с инструментом справа от парсера. Если вы выбираете опцию Add unique results, то необходимости включать уникализацию по строке нет.
    Настройки качества уникализации и потребления памяти находятся в Settings -> Configs Presets.

    File Name(top)


    Имя файла для сохранения результата, результаты сохраняются в папку results/
    Поддерживает шаблоны из Results format, дополнительно поддерживает следующие макросы:
    • {date} - Дата в формате Jan-12 на момент старта задания
    • {time} - Время в формате 16-22-49 на момент старта задания
    • {queriesfile} - Подставляет название файла с запросами
    Возможно использовать в пути подпапки неограниченного уровня вложенности, они будут созданы при необходимости, пример:
    {date}/{time}/{queriesfile}

    Do log(top)


    Определяет вести ли лог выполнения по каждому запросу. Замедляет работу, обычно нет необходимости вести лог.

    Keep unique(top)


    Возможность сохранять информацию об уникализации.
    Допустим нам необходимо спарсить ссылок в одном задании, а в будущем спарсить еще ссылок по другим запросам, но при этом сохранять только новые ссылки:
    При первом парсинге мы создаем новую базу уникализации указывая её имя. При втором и последующем парсинге мы выбираем ранее созданную базу уникализации.