Задача: парсинг вообще всех возможных доменов, без определенных параметров. Нужно спарсить все интернет домены Далее я уже там своим софтом работаю. Как делаю: беру словарик английских слов, и делаю быстрые таски по 3 слова из словарика. Все по порядку. Проблема: первые три дня все было супер, далее парсер мне выдает постоянные дубли. Уже недели три паршу а уникальных доменов только 20млн. Могу неделю парсить - потом вычищаю по доменам и получается уникальных только 1млн. Как быть? И можно как то это полностью автоматизировать? Вбить весь словарик и потом просто забирать раз в день файл с результатами?
конечно можно - просто добавить задание через Add task указав файл с запросами и выбрав уник по домену
Не совсем уверен что правильно указываю уник по домену. Запостите сюда пожалуйста картинку с настройками. И как он будет записывать файлы с результатами? Парсер берет один запрос из общего файла и пишет все результаты в отдельный файл? Второй запрос = второй файл?
все в один файл естественно, парсер может обрабатывать сотни миллионов запросов, не будет же он создавать столько же файлов хотя для определенных ситуаций это нужно, и это можно сделать указав нужный формат в Result file name скрин настроек уника:
Я извиняюсь, но не совсем понял как это настроить в Result file name. Нужно чтоб парсер работал ежедневно, без перерывов. Названия файлов - {date}.txt т.е. в месяц будет 31 файл (или 30, или 28 Каждый день - новый файл и уникальными доменами. Спасибо.
Код: [% USE date; date.format(format => '%d') %].txt Т.е. используем плагин date и выводим текущую дату, в формате только день Более подробно тут: http://template-toolkit.ru/Modules/Template/Plugin/Date.html
о господи. Хорошо, а как то проще можно сделать? Пофиг, пусть называется как угодно, просто чтоб не писал в один файл, а периодически создавал новые.. А то один же разрастется до неимоверных размеров.
"Куда уж проще" это видимо для тех кто хотя бы на паскале может вывести hello world, а я даже этого не могу ))
какой паскаль? о чем речь вообще? форматирование имени файла в зависимости от текущей даты - это сложный функционал, тем не менее он присутствует и даже позволяет очень гибко это делать, как в данном примере - только по дням был предоставлен полный формат который надо просто выделить, скопировать и вставить в нужное поле...
вроде так надо тебе делать + те настроки которые выше , теперь если ты удалиш задание потом опять запустиш то дублей не будет
По поводу сохранения файла.. Как сделать, что бы он сохранял файл с таким же именем, как имя того файла с которого он брал запросы? С этим разобрался - ${queriesfile} Но шаблонизатор берет не просто имя файла, а и его путь. Соотственно сохраняет так же. Можно как то брать только имя файла?
Необходимо воспользоваться возможностями шаблонизатора: Разделяем путь через разделитель / и выводим последнюю часть(имя файла)