Когда парсишь большие списки доменов с помощью Rank:CMS, больше всего доменов попадает в unknown (что не удивительно). Среди них есть: 1. Сайты, сделанные на самописных CMS/редких CMS/голом html. 2. Сайт, создатели которых приложили максимум усилий, чтобы скрыть движок сайта. 3. Домены на парковке. Подскажите, пожалуйста, как проще всего отсеять домены на парковке из списков?
Есть пара вариантов: искать в выдаче парсера Net::HTTP совпадение по слову "парковка" и его различных формах на самых распространенных языках проверять NS каждого домена через Net::Whois и сравнивать их со списком распространенных парковщиков опять же через Net::Whois проверять статус домена - возможно будет какой-то неcтандартный статус Но все эти варианты требуют значительной подготовки: собрать список парковщиков и их нейм серверов, потестировать разные домены на статус...
Спасибо, думал может есть какой-то простой и очевидный способ, до которого я не додумался. Сейчас делаю примерно так, как вы описали.