Помогите с настройками

Peat · 29 апр 2014

Задача: парсинг вообще всех возможных доменов, без определенных параметров. Нужно спарсить все интернет домены Далее я уже там своим софтом работаю.

Как делаю: беру словарик английских слов, и делаю быстрые таски по 3 слова из словарика. Все по порядку.

Проблема: первые три дня все было супер, далее парсер мне выдает постоянные дубли. Уже недели три паршу а уникальных доменов только 20млн. Могу неделю парсить - потом вычищаю по доменам и получается уникальных только 1млн.

Как быть? И можно как то это полностью автоматизировать? Вбить весь словарик и потом просто забирать раз в день файл с результатами?

Forbidden · 29 апр 2014

конечно можно - просто добавить задание через Add task указав файл с запросами и выбрав уник по домену

Peat · 29 апр 2014

Не совсем уверен что правильно указываю уник по домену. Запостите сюда пожалуйста картинку с настройками.
И как он будет записывать файлы с результатами? Парсер берет один запрос из общего файла и пишет все результаты в отдельный файл?
Второй запрос = второй файл?

Forbidden · 30 апр 2014

все в один файл естественно, парсер может обрабатывать сотни миллионов запросов, не будет же он создавать столько же файлов
хотя для определенных ситуаций это нужно, и это можно сделать указав нужный формат в Result file name

скрин настроек уника:

Peat · 2 май 2014

Я извиняюсь, но не совсем понял как это настроить в Result file name.
Нужно чтоб парсер работал ежедневно, без перерывов.
Названия файлов - {date}.txt
т.е. в месяц будет 31 файл (или 30, или 28

Каждый день - новый файл и уникальными доменами.
Спасибо.

Forbidden · 2 май 2014

Код:
[% USE date; date.format(format => '%d') %].txt
Т.е. используем плагин date и выводим текущую дату, в формате только день
Более подробно тут: http://template-toolkit.ru/Modules/Template/Plugin/Date.html

Peat · 2 май 2014

о господи. Хорошо, а как то проще можно сделать? Пофиг, пусть называется как угодно, просто
чтоб не писал в один файл, а периодически создавал новые.. А то один же разрастется до неимоверных размеров.

Forbidden · 3 май 2014

куда уж проще когда дают конкретный ответ на пожелание?
скопируй да вставь)

Peat · 3 май 2014

"Куда уж проще" это видимо для тех кто хотя бы на паскале может вывести hello world, а я даже этого не могу ))

Forbidden · 3 май 2014

какой паскаль? о чем речь вообще? форматирование имени файла в зависимости от текущей даты - это сложный функционал, тем не менее он присутствует и даже позволяет очень гибко это делать, как в данном примере - только по дням
был предоставлен полный формат который надо просто выделить, скопировать и вставить в нужное поле...

coffee · 8 май 2014

Peat сказал(а): ↑

"Куда уж проще" это видимо для тех кто хотя бы на паскале может вывести hello world, а я даже этого не могу ))
Нажмите, чтобы раскрыть...

вроде так надо тебе делать

+ те настроки которые выше , теперь если ты удалиш задание потом опять запустиш то дублей не будет

Forbidden · 8 май 2014

coffee сказал(а): ↑

вроде так надо тебе делать
Нажмите, чтобы раскрыть...

Советую внимательно читать топик и не вводить людей в заблуждение
Правильный ответ уже был дан

Syrex · 16 май 2014

По поводу сохранения файла..
Как сделать, что бы он сохранял файл с таким же именем, как имя того файла с которого он брал запросы?

С этим разобрался - ${queriesfile}
Но шаблонизатор берет не просто имя файла, а и его путь. Соотственно сохраняет так же. Можно как то брать только имя файла?

Forbidden · 16 май 2014

Syrex сказал(а): ↑

С этим разобрался - ${queriesfile}
Но шаблонизатор берет не просто имя файла, а и его путь. Соотственно сохраняет так же. Можно как то брать только имя файла?
Нажмите, чтобы раскрыть...

Необходимо воспользоваться возможностями шаблонизатора:

Разделяем путь через разделитель / и выводим последнюю часть(имя файла)

Помогите с настройками

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

coffee A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Syrex A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Помогите с настройками

Peat A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

Peat A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

Peat A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

Peat A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

Peat A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

coffee A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

Syrex A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Peat A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

coffee A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Syrex A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise