Ребята здравствуйте! Извините заранее если где-то не донес мысль, буду рад наводящим вопросам. У меня есть ряд вопросов, с которыми я столкнулся используя другие парсеры. Не особо представляя, как это можно реализовать у вас, сейчас, алгоритм работы происходит так. 1) зайти на сайт А (запустить что-то типа сканера сайта, получить списки ссылок) перейти на вкладку получения контента и создать список ссылок для сайта Б в виде тхт файла. 2) не имея функционала, достаточного, сразу запустить сайт Б в проекте сайта А, мы создаем 2-й проект для сайта Б, в который автоматически подгружаем ссылки из текстового файла полученного при парсинге сайта А. - Теперь самое интересное, нужно чтобы проекты работали по планировщику например запуск в 7 вечера каждый день. последовательно обрабатываясь сначала сайт А должен собрать ссылки, потом перейти на обработку контента и сформировать список. После запустить проект сайта Б и получить финальный файл результата. - при бане сайта возобновление работы не загружая первоначальный список (если у нас при запуске проект подгружает список ссылок из текстового файла) Можно ли потестить это на демке? Спасибо заранее.
Привет, демки вообще нет, откуда такая информация? задача решается с использованием HTML::LinkExtractor для сбора ссылок и Net::HTTP для извлечения необходимого контента запуск по расписанию можно организовать используя API парсера
Добрый день еще раз. Про демку это я так, думаю может есть))) Еще моменты интересуют. Сколько можно запускать программ одновременно? У меня 10-ки сайтов, которые надо обрабатывать каждый день почти-что. И на сколько большие сайты можно обрабатывать (миллион ссылок например) Какова скорость обработки например для получения ссылок, имеется ввиду где происходит обработка? в базе или в оперативке или еще каким-то способом. Также интересует насколько требовательно должно быть оборудование, если к примеру запустить 10-к парсеров одневременно ( если это конечно возможно) как сильно это отразится на общем состоянии компьютера (зависания и тд, потребление ресурсов) конечно комп серверного типа.
незачем запускать 10 парсеров, в A-Parser существует очередь заданий для этого Любые, лимитов нет Порядка 5-10к запросов в минуту, но обычно скорость обработки упирается в возможности самого сайта абстрактный вопрос, зависит от задачи, числа потоков и прочего рекомендую ознакомиться с документацией http://a-parser.com/wiki/index/
Спасибо) изучаем помеленьку. А можно ли сделать перевод программы на русский? Я понимаю что на англ конечно хорошо и разберемся и так, но... привычка) Возможно есть файл ресурсов? который просто стоит перевести? Так как покупка планируется, могу сделать и сам. если есть такая возможность.
A-Parser и так есть на русском, переведено все кроме некоторых полей http://a-parser.com/img/scr/eRHaD.png
Подскажите пожалуйста, моя компания купила парсер, как мне у себя это доказать и попасть в закрытый форум? Существуют ли видеоинструкции по настройке для новичков?
кому доказать? покупка всегда осуществляется с какого то аккаунта, после оплаты он автоматически получает лицензию и доступ в закрытый форум видеоинтрукций нет, вся документация находиться на сайте http://a-parser.com/wiki/index/