Фильтрация результата по встречаемости строк

Тема в разделе "Делимся опытом", создана пользователем Дмитрий, 10 янв 2017.

  1. Дмитрий

    Дмитрий A-Parser Enterprise License A-Parser Enterprise

    Доброго времени суток!

    Допустим, спарсили URL по списку запросов из топ-10 Гугла, в результате список урлов по всем запросам. Часть из них встречается 1 раз, часть по несколько раз.
    Подскажите, как отфильтровать общий результат парсинга таким образом, чтобы оставить только те URL, которые встречаются к примеру более 5 раз?
     
  2. Forbidden

    Forbidden Administrator Команда форума A-Parser Enterprise

    Достаточно просто для Linux / MacOS, для Windows необходимо поставить gnuutils, в командной строке выполнить:
    Код:
    sort result.txt | uniq -c | awk '{if($1 >= 5) print $2}'
     
    vipdenya, Дмитрий, relay и ещё 1-му нравится это.

Поделиться этой страницей