Задача: парсинг вообще всех возможных доменов, без определенных параметров. Нужно спарсить все интернет домены
Далее я уже там своим софтом работаю.
Как делаю: беру словарик английских слов, и делаю быстрые таски по 3 слова из словарика. Все по порядку.
Проблема: первые три дня все было супер, далее парсер мне выдает постоянные дубли. Уже недели три паршу а уникальных доменов только 20млн. Могу неделю парсить - потом вычищаю по доменам и получается уникальных только 1млн.
Как быть? И можно как то это полностью автоматизировать? Вбить весь словарик и потом просто забирать раз в день файл с результатами?
Как делаю: беру словарик английских слов, и делаю быстрые таски по 3 слова из словарика. Все по порядку.
Проблема: первые три дня все было супер, далее парсер мне выдает постоянные дубли. Уже недели три паршу а уникальных доменов только 20млн. Могу неделю парсить - потом вычищаю по доменам и получается уникальных только 1млн.
Как быть? И можно как то это полностью автоматизировать? Вбить весь словарик и потом просто забирать раз в день файл с результатами?