Помогите с настройками

  • Автор темы Автор темы Peat
  • Дата начала Дата начала

Peat

A-Parser Pro License
A-Parser Pro
Задача: парсинг вообще всех возможных доменов, без определенных параметров. Нужно спарсить все интернет домены :) Далее я уже там своим софтом работаю.

Как делаю: беру словарик английских слов, и делаю быстрые таски по 3 слова из словарика. Все по порядку.

Проблема: первые три дня все было супер, далее парсер мне выдает постоянные дубли. Уже недели три паршу а уникальных доменов только 20млн. Могу неделю парсить - потом вычищаю по доменам и получается уникальных только 1млн.

Как быть? И можно как то это полностью автоматизировать? Вбить весь словарик и потом просто забирать раз в день файл с результатами?
 
конечно можно - просто добавить задание через Add task указав файл с запросами и выбрав уник по домену
 
Не совсем уверен что правильно указываю уник по домену. Запостите сюда пожалуйста картинку с настройками.
И как он будет записывать файлы с результатами? Парсер берет один запрос из общего файла и пишет все результаты в отдельный файл?
Второй запрос = второй файл?
 
все в один файл естественно, парсер может обрабатывать сотни миллионов запросов, не будет же он создавать столько же файлов :)
хотя для определенных ситуаций это нужно, и это можно сделать указав нужный формат в Result file name

скрин настроек уника:
vEKe1.png
 
Я извиняюсь, но не совсем понял как это настроить в Result file name.
Нужно чтоб парсер работал ежедневно, без перерывов.
Названия файлов - {date}.txt
т.е. в месяц будет 31 файл (или 30, или 28:)

Каждый день - новый файл и уникальными доменами.
Спасибо.
 
о господи. Хорошо, а как то проще можно сделать? Пофиг, пусть называется как угодно, просто
чтоб не писал в один файл, а периодически создавал новые.. А то один же разрастется до неимоверных размеров.
 
куда уж проще когда дают конкретный ответ на пожелание? :)
скопируй да вставь)
 
"Куда уж проще" это видимо для тех кто хотя бы на паскале может вывести hello world, а я даже этого не могу :)))
 
какой паскаль? о чем речь вообще? форматирование имени файла в зависимости от текущей даты - это сложный функционал, тем не менее он присутствует и даже позволяет очень гибко это делать, как в данном примере - только по дням
был предоставлен полный формат который надо просто выделить, скопировать и вставить в нужное поле...
 
Последнее редактирование:
"Куда уж проще" это видимо для тех кто хотя бы на паскале может вывести hello world, а я даже этого не могу :)))
вроде так надо тебе делать
ecXLj

+ те настроки которые выше , теперь если ты удалиш задание потом опять запустиш то дублей не будет
 
По поводу сохранения файла..
Как сделать, что бы он сохранял файл с таким же именем, как имя того файла с которого он брал запросы?

С этим разобрался - ${queriesfile}
Но шаблонизатор берет не просто имя файла, а и его путь. Соотственно сохраняет так же. Можно как то брать только имя файла?
 
Последнее редактирование:
С этим разобрался - ${queriesfile}
Но шаблонизатор берет не просто имя файла, а и его путь. Соотственно сохраняет так же. Можно как то брать только имя файла?

Необходимо воспользоваться возможностями шаблонизатора:
Ogxv8.png


Разделяем путь через разделитель / и выводим последнюю часть(имя файла)
 
Назад
Верх