А-Парсер и Пандора!

  • Автор темы Автор темы Topper
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.
Темнишь, парниша. )) Выкладывай, что там парсить еще нужно?

))
Да даже к примеру если я хочу парсить картинки сразу с двух мест, и разбавлять их уже в шаблоне, так же видосы, парсить к примеру пару тубов, и в доре ставить рандомно или с одного или с другого.
 
предыдущее предложение так и зависло , а жаль =(
@Topper вопрос по поводу сниппетов, допустим я паршу один и тот же поисковик для сниппетов и текста, и получается парсим поисковик второй раз в холостую, тк при парсинге линков можно забирать сразу же и сниппеты. Может есть смысл сделать какую то галочку, при включении которой сниппеты будут браться с парсера текста? экономим время и ресурсы апарсера.

PS прогрессбар показывает процесс парсинга и обработки маленькой пачки, а общего прогресса не видно, если можно добавь пожалуйста общий прогресс для парсинга 1-го дора.
 
Последнее редактирование:
Темнишь, парниша. )) Выкладывай, что там парсить еще нужно?

Поддержу идею. Мне хотелось бы такой функционал:

1. Перевод ключа ru на eng из бинг транслейтор
2. Парсинг по eng ключу видео с порнотуба, например какого-нибудь порнхаба.
3. Сохранение видео в файл с ru ключом.

Мы с btr хотели стандартный ютобовский шаб перепилить под это дело. Но, саппорт говорит, что eng кей не получится передать на второй парсер в рамках одного шаблона. По этому хотелось бы такой функционал возложить на пандору.
 
Антон сказал(а):
Предлагаю добавить в окно lap обновляемую сводку о том, для скольки ключей спарсился текст, сниппеты и т.д. и для скольки ещё осталось.

Да, нужна вещь, сделаем
Topper, на какой стадии разработка данной опции? :)
 
Антон сказал(а):
Предлагаю добавить в окно lap обновляемую сводку о том, для скольки ключей спарсился текст, сниппеты и т.д. и для скольки ещё осталось.


Topper, на какой стадии разработка данной опции? :)
Topper чет тут давно нечего не писал:) Может забыл про нас
 
Ребята, подскажите как увеличить скорость парсинга. У меня за двое суток напарсило контента на 140 тыщ ключей. Есть возможность, так сказать увеличить скорость перебора ключей? То есть что бы за сутки парсило контент, и обрабатывало не 70 тыщ ключей а больше. Возможно что то в настройках, или как у кого?
 
Последнее редактирование:
нужно еще смотреть в чем именно загвоздка, у меня парсинг пролетает очень быстро, а вот чистка и сохранение текста очень долго. =(
 
Проблема, очень медленно парсит тексты с сайтов

23eca32b0b8b4cdfb2de527ce35a60dd.png


Часа 3-4 лузает это количество. Сервак ,8 ядер, 16 озу канал 300 мбит довнлоад и 400 уплоад. Прокси свои тунели 6000. Да, и сайты парсю без прокси. В чем может быть причина?

9f427802276041d08152d3bf40548aea.png
 
Наверняка комп подключен к роутеру, он и тормозит.
 
creck, а сколько у вас текстовки на кей парсится?
 
От 5000 символов до 12000 символов. Ну эт ото что замечал.
я имел ввиду сколько страниц с выдачи на кей? я только первую страницу с выдачи беру, т.е. грубо говоря 10 ссылок на кей распаршивается,
потому что мне надо всего 2-4к знаков на кей, а у вас там на скрине смотрю вроде и скорость отличная но 300к ссылок в задании, это на сколько кеев то?

Т.е. с моими настройками это примерно на 30к кеев текстовки у вас парсится.
 
Последнее редактирование:
я имел ввиду сколько страниц с выдачи на кей? я только первую страницу с выдачи беру, т.е. грубо говоря 10 ссылок на кей распаршивается,
потому что мне надо всего 2-4к знаков на кей, а у вас там на скрине смотрю вроде и скорость отличная но 300к ссылок в задании, это на сколько кеев то?

Т.е. с моими настройками это примерно на 30к кеев текстовки у вас парсится.
Ставлю 10 000 в линкАпарсере.
Настройки парсинга
a8ff1aeb474d4af9979f8ae3afa8ef7f.png


Очень много уходит в бад. Например с 320 тыщ ключей, в бад за парсинг уходит 120 тыщ. Приходится запускать заново по несколько раз. С Topperом в аьке переписывался, просил что бы добавил фичу, те ключи которые обработал, сохранял где то отдельно. Потому что, когда список кеев большое, на 500 косарей, после парсинга многие отвалились в бад. Повторно использовать список уже для генерирования с 500 тыщ, очень утомительно долгий процес. Проще сразу поставить список тот на который обработан и сохранен в кеше. Вроде сказал что допилит.
 
Также не понятная причина такого вылета ключей в бад, после повторных парсингов по ним, все кушает как надо. прокси рабочие, капч не наблюдается.????
 
настрой сбор текста без прокси, я понимаю для парсинга одного сайта нужны прокси, но когда ты парсишь тысячи сайтов, и на каждый сайт делаешь всего один запрос, прокси не нужны как по мне.
ЗЫ я собираю так же текст без проксей, скорость сбора конечно плавает, но в среднем примерно в 2 раза быстрее.
ЗЫЗЫ Для апарсера достаточно 2 ядер и 4 гигов ОЗУ, он больше не возьмет просто, общался намедни с автором, уперется может либо в процессор, либо в медленные днс сервера.
 
Помогите пожалуйста.
подскажите как правильно использовать свой список стоп слов в файлике LinkAParser.extraregex.txt
например есть слова и не надо чтобы по ним парсился контент.
Если не сложно каожите пример.
Код:
.org
.us
Adult
sex
porn
 
настрой сбор текста без прокси, я понимаю для парсинга одного сайта нужны прокси, но когда ты парсишь тысячи сайтов, и на каждый сайт делаешь всего один запрос, прокси не нужны как по мне.
ЗЫ я собираю так же текст без проксей, скорость сбора конечно плавает, но в среднем примерно в 2 раза быстрее.
ЗЫЗЫ Для апарсера достаточно 2 ядер и 4 гигов ОЗУ, он больше не возьмет просто, общался намедни с автором, уперется может либо в процессор, либо в медленные днс сервера.
Так я парсю без проксей сайты. Все остальное с проксями
 
Ребята, у меня постоянно зависает программа. Когда доходит до Текст успешно спаршен, чистим и сохраняем.. То есть нет никаких дальше движений. Что может быть?
 
Статус
Закрыто для дальнейших ответов.
Назад
Верх