Уточнения функционала

  • Автор темы Автор темы Kreola
  • Дата начала Дата начала

Kreola

Member
Ребята здравствуйте!
Извините заранее если где-то не донес мысль, буду рад наводящим вопросам.
У меня есть ряд вопросов, с которыми я столкнулся используя другие парсеры.
Не особо представляя, как это можно реализовать у вас, сейчас, алгоритм работы происходит так.
1) зайти на сайт А (запустить что-то типа сканера сайта, получить списки ссылок) перейти на вкладку получения контента и создать список ссылок для сайта Б в виде тхт файла.
2) не имея функционала, достаточного, сразу запустить сайт Б в проекте сайта А, мы создаем 2-й проект для сайта Б, в который автоматически подгружаем ссылки из текстового файла полученного при парсинге сайта А.

- Теперь самое интересное, нужно чтобы проекты работали по планировщику например запуск в 7 вечера каждый день. последовательно обрабатываясь сначала сайт А должен собрать ссылки, потом перейти на обработку контента и сформировать список. После запустить проект сайта Б и получить финальный файл результата.
- при бане сайта возобновление работы не загружая первоначальный список (если у нас при запуске проект подгружает список ссылок из текстового файла)

Можно ли потестить это на демке?
Спасибо заранее.
 
Привет, демки вообще нет, откуда такая информация? :)

задача решается с использованием HTML::LinkExtractor для сбора ссылок и Net::HTTP для извлечения необходимого контента
запуск по расписанию можно организовать используя API парсера
 
Добрый день еще раз.
Про демку это я так, думаю может есть)))
Еще моменты интересуют. Сколько можно запускать программ одновременно? У меня 10-ки сайтов, которые надо обрабатывать каждый день почти-что.
И на сколько большие сайты можно обрабатывать (миллион ссылок например)
Какова скорость обработки например для получения ссылок, имеется ввиду где происходит обработка? в базе или в оперативке или еще каким-то способом.
Также интересует насколько требовательно должно быть оборудование, если к примеру запустить 10-к парсеров одневременно ( если это конечно возможно) как сильно это отразится на общем состоянии компьютера (зависания и тд, потребление ресурсов) конечно комп серверного типа.
 
Еще моменты интересуют. Сколько можно запускать программ одновременно? У меня 10-ки сайтов, которые надо обрабатывать каждый день почти-что.
незачем запускать 10 парсеров, в A-Parser существует очередь заданий для этого

И на сколько большие сайты можно обрабатывать (миллион ссылок например)
Любые, лимитов нет

Какова скорость обработки например для получения ссылок
Порядка 5-10к запросов в минуту, но обычно скорость обработки упирается в возможности самого сайта

Также интересует насколько требовательно должно быть оборудование, если к примеру запустить 10-к парсеров одневременно ( если это конечно возможно) как сильно это отразится на общем состоянии компьютера (зависания и тд, потребление ресурсов) конечно комп серверного типа.
абстрактный вопрос, зависит от задачи, числа потоков и прочего

рекомендую ознакомиться с документацией http://a-parser.com/wiki/index/
 
Спасибо) изучаем помеленьку.
А можно ли сделать перевод программы на русский? Я понимаю что на англ конечно хорошо и разберемся и так, но... привычка) Возможно есть файл ресурсов? который просто стоит перевести? Так как покупка планируется, могу сделать и сам. если есть такая возможность.
 
Подскажите пожалуйста, моя компания купила парсер, как мне у себя это доказать и попасть в закрытый форум?
Существуют ли видеоинструкции по настройке для новичков?
 
Последнее редактирование:
Подскажите пожалуйста, моя компания купила парсер, как мне у себя это доказать и попасть в закрытый форум?
кому доказать? покупка всегда осуществляется с какого то аккаунта, после оплаты он автоматически получает лицензию и доступ в закрытый форум

Существуют ли видеоинструкции по настройке для новичков?
видеоинтрукций нет, вся документация находиться на сайте http://a-parser.com/wiki/index/
 
Назад
Верх