Использование уникализации

25 дек 2015


  • Уникализация, дедупликация, удаление дублей, удаление повторов - все это подразумевает что нам не нужны повторяющиеся результаты.
    В A-Parser есть 2 метода уникализации, разберем подробно каждый

    Уникализация результатов по строке(top)


    Данный метод работает после формирования результата(Базовые принципы форматирования), непосредственно перед записью результата в файл каждая строка проверяется на уникальность и в файл записываются только новые уникальные строки
    Включить уникальность по строке можно в Quick Task:
    [​IMG]

    или в Add Task:
    [​IMG]


    Уникализация по любому результату(top)


    Уникализация по любому результату позволяет делать уникализацию непосредственно на выбранном результате от конкретного парсера(Представление результатов в парсере). Добавить данный тип уникализации можно в Редакторе заданий, кликнув на иконку с инструментом справа от парсера и нажав Add unique result:
    [​IMG]
    Теперь можно выбрать на каком результате делать уникализацию и её тип:[​IMG]

    Переключатель Global используется когда выбрано 2 или более парсера, она определяет делать общую уникализацию или по каждому парсеру отдельно.

    Типы уникализации(top)


    ПараметрОписание
    StringУникализация по строке(сравнивается целиком вся строка результата)
    DomainУникализация по домену(сравнивается целиком домен, например www.domain.com и domain.com это разные домены)
    Top Level domainУникализация по главному домену с учетом региональных, коммерческих, образовательных и прочих доменов(например domain.co.uk и domain2.co.uk это разные домены, а sub1.domain.com и sub2.domain.com - одинаковые)
    2nd Level domainУникализация по домену 2ого уровня(сравниваются домены второго уровня, например www.domain.com, domain.com и user.subdomain.domain.com это все один домен)
    PathУникализация по пути(сравниваются папки, например http://domain.com/path1/file.php и http://domain.com/path1/file2.php - одинаковые папки)
    Without paramsУникализация по ссылке без параметров(сравниваются ссылки без параметров, например http://domain.com/file.php?page=1 и http://domain.com/file.php?page=2 - одинаковые ссылки)


    Уникализация запросов(top)


    Уникализация запросов отправляет непосредственно на парсинг только уникальные запросы, ранее не отпаршенные в текущем задании. Основные варианты использования:
    • Если в исходных запросах есть дубликаты и их нежелательно парсить(двойная работа)
    • При использовании опции Parse to level необходимо использование только уникальных результаты чтобы предотвратить разрастание и зацикливание запросов(например при использовании парсера HTML::LinkExtractor HTML::LinkExtractor)
    Во всех других случаях ненужное использовании уникализации запросов лишь замедлит общую работу парсера

    Сохранение уникализации между заданиями(top)


    В A-Parser существует возможность сохранять базу уникализации, для использования в будущих заданиях, что позволяет в новых заданиях сохранять только новые уникальные результаты(например ссылки при парсинге серпа в SE::Google SE::Google)
    Для сохранения базы уникализации необходимо при добавлении первого задания создать новое имя базы:[​IMG]
    Для всех последующих заданий необходимо выбирать ранее созданное имя базы, тем самым будут сохранятся только новые уникальные результаты, независимо от того идет ли запись результатов в тот же файл что и в первом задании или же в новый файл
Moriarty, loveseo и high_skill нравится это.