)) Да даже к примеру если я хочу парсить картинки сразу с двух мест, и разбавлять их уже в шаблоне, так же видосы, парсить к примеру пару тубов, и в доре ставить рандомно или с одного или с другого.
предыдущее предложение так и зависло , а жаль =( @Topper вопрос по поводу сниппетов, допустим я паршу один и тот же поисковик для сниппетов и текста, и получается парсим поисковик второй раз в холостую, тк при парсинге линков можно забирать сразу же и сниппеты. Может есть смысл сделать какую то галочку, при включении которой сниппеты будут браться с парсера текста? экономим время и ресурсы апарсера. PS прогрессбар показывает процесс парсинга и обработки маленькой пачки, а общего прогресса не видно, если можно добавь пожалуйста общий прогресс для парсинга 1-го дора.
Поддержу идею. Мне хотелось бы такой функционал: 1. Перевод ключа ru на eng из бинг транслейтор 2. Парсинг по eng ключу видео с порнотуба, например какого-нибудь порнхаба. 3. Сохранение видео в файл с ru ключом. Мы с btr хотели стандартный ютобовский шаб перепилить под это дело. Но, саппорт говорит, что eng кей не получится передать на второй парсер в рамках одного шаблона. По этому хотелось бы такой функционал возложить на пандору.
Антон сказал(а): ↑ Предлагаю добавить в окно lap обновляемую сводку о том, для скольки ключей спарсился текст, сниппеты и т.д. и для скольки ещё осталось. Topper, на какой стадии разработка данной опции?
Да думаю человек имеет право на отпуск, ну а потом Topper очень отзывчив, пишите тут что хотите видеть в дальнейшем и я уверен что он допилит...
Ребята, подскажите как увеличить скорость парсинга. У меня за двое суток напарсило контента на 140 тыщ ключей. Есть возможность, так сказать увеличить скорость перебора ключей? То есть что бы за сутки парсило контент, и обрабатывало не 70 тыщ ключей а больше. Возможно что то в настройках, или как у кого?
нужно еще смотреть в чем именно загвоздка, у меня парсинг пролетает очень быстро, а вот чистка и сохранение текста очень долго. =(
Проблема, очень медленно парсит тексты с сайтов Часа 3-4 лузает это количество. Сервак ,8 ядер, 16 озу канал 300 мбит довнлоад и 400 уплоад. Прокси свои тунели 6000. Да, и сайты парсю без прокси. В чем может быть причина?
я имел ввиду сколько страниц с выдачи на кей? я только первую страницу с выдачи беру, т.е. грубо говоря 10 ссылок на кей распаршивается, потому что мне надо всего 2-4к знаков на кей, а у вас там на скрине смотрю вроде и скорость отличная но 300к ссылок в задании, это на сколько кеев то? Т.е. с моими настройками это примерно на 30к кеев текстовки у вас парсится.
Ставлю 10 000 в линкАпарсере. Настройки парсинга Очень много уходит в бад. Например с 320 тыщ ключей, в бад за парсинг уходит 120 тыщ. Приходится запускать заново по несколько раз. С Topperом в аьке переписывался, просил что бы добавил фичу, те ключи которые обработал, сохранял где то отдельно. Потому что, когда список кеев большое, на 500 косарей, после парсинга многие отвалились в бад. Повторно использовать список уже для генерирования с 500 тыщ, очень утомительно долгий процес. Проще сразу поставить список тот на который обработан и сохранен в кеше. Вроде сказал что допилит.
Также не понятная причина такого вылета ключей в бад, после повторных парсингов по ним, все кушает как надо. прокси рабочие, капч не наблюдается.????
настрой сбор текста без прокси, я понимаю для парсинга одного сайта нужны прокси, но когда ты парсишь тысячи сайтов, и на каждый сайт делаешь всего один запрос, прокси не нужны как по мне. ЗЫ я собираю так же текст без проксей, скорость сбора конечно плавает, но в среднем примерно в 2 раза быстрее. ЗЫЗЫ Для апарсера достаточно 2 ядер и 4 гигов ОЗУ, он больше не возьмет просто, общался намедни с автором, уперется может либо в процессор, либо в медленные днс сервера.
Помогите пожалуйста. подскажите как правильно использовать свой список стоп слов в файлике LinkAParser.extraregex.txt например есть слова и не надо чтобы по ним парсился контент. Если не сложно каожите пример. Код: .org .us Adult sex porn
Ребята, у меня постоянно зависает программа. Когда доходит до Текст успешно спаршен, чистим и сохраняем.. То есть нет никаких дальше движений. Что может быть?