Приветствую. Если на сервере несколько внешних интерфейсов, то какой из них будет использован для работы апарсера?
И ещё вопрос - из-за чего может возникать ситуация с "wait proxy threads"? На виндовом компе не было такого, а как поставил на линух сервер - постоянно возникают такие процессы.
Сам себе отвечаю. Сейчас проверил командой "netstat -tupan | grep aparser", используется только основной интерфейс сервера. PS Тогда нихера не пойму скачков со скоростью и вознкновением тредов, ожидающих проксю.
Используется основной Wait proxy threads может быть в 2ух случаях: 1. Пропадают живые прокси - смотреть в Proxy Checker 2. Прокси баняться парсером(Proxy ban time в настройках) и в итоге все доступные прокси попадают в бан на какое то время о каком парсере речь?
В прокси чекере прокси от файнов, перепроверяются каждые 10 минут. Может быть можно сделать как-то их проверку на конкретный сервис? Для вордстата какой оптимально Proxy ban time установить?
И ещё вдогонку вопрос по поводу количества живых акков, которые создаёт SE::Yandex::Register. Где-нибудь это можно проверить? При работе где-нить отмечается, какие из них сдохли (по аналогии с проксями)?
Не отмечаются, в files/SE-Yandex/accounts.txt автоматически сохраняются все зареганные акки, и оттуда же они в дальнейшем используются в вордстате Сколько всего живых проксей отображает во вкладке чекера?
Мда... всё же походу это файнов колбасило. Сейчас скорость держится на уровне 4к кеев в минуту. Failed requests проскакивают, но очень мало. В парсере SE:Yandex:Wordstat сделал настройки Request retries = 100 и Request delay = 5 сек.
2993 из 3к Но кстати, и днём было под 3к живых проксей, однако скорость скакала. А сейчас иногда текущая скорость проседает до 3,6к и проскакивает серия failed queries, причём тредов ожидающих проксю не появляется, как это было днём. Так продолжается какое-то время (секунд 20-30), потом скорость снова возрастает до 4к и какое-то время до очередного проседания хреначит на нормальной скорости без фейлов.
Может ли это проседание быть связано с баном яндекс-акка? А часть запросов, которые парсились через него - валятся в failed?
И кстати ещё вопрос, если нигде не указывается количество работчих яндекс-акков, то как понять, когда их надо пополнить?
Может, работа с забанеными аккаунтами еще никак не отслеживается, работа с аккаунтам появилась только в текущей версии, соберем статистику и улучшим что-то, если потребуется
Да, очень хотелось бы иметь мониторинг живых яндекс-аккаунтов, а то вслепую не понятно - нужны ещё акки или нет, с ними связано проседание скорости или нет, можно ли оставить парсер без присмотра и быть уверенным, что работа будет корректно продолжена. Сейчас не получается накидать заданий и оставить парсер колбасить свою работу, нужно постоянно присматривать за ним. Ночью пока сидел - херачило под 3к кеев в минуту, оставил парситься, утром прихожу - даже та выборка, за которой следил ночью - не допарсилась, всё валится в failed queries. Обидно, даже не то, что скорость упала до 20 кеев в минуту, а то, что в выборке под 500к немалая часть запросов ушла в failed, то есть надо всю выборку сначала перечекивать. По сути, автономного режима работы сейчас не получается, за парсером нужен постоянный присмотр (применительно к парсеру вордстата говорю).
Вот, к примеру, я зарегистрировал по вашему мануалу 1000 аккаунтов, используя 3к проксей. Вроде всё зарегистрировалось ОК. Пошёл парсить. А на следующий день, думаю, дай-ка гляну, живые акки или нет, первые 10 акков, проверенные вручную были сдохшими. Так может быть там из этой пачки в 1к всего-то в результате было пару сотен живых акков? Как это узнать? Однозначно нужен мониторинг живых акков и, возможно, какие-то дополнительные рекомендации для повышения проходимости акков при регистрации, и меньшего их мора - например рекомендации по таймаутам, max допустимому количеству запросов за единицу времени и т.д.
Щас попробовал удалить все те акки, что создавал вчера и позавчера и создать новых, причём с 60 секундной задержкой в парсере регистрации акков (Request delay = 60 сек). При перепроверке выборочно вручную через минут 30-40 после создания - ни в один залогиниться не получилось. В итоге, капча хавается исправно (= бабки улетают в пустоту), а нормальных акков я так и не увидел. Хотя если учесть, что парсинг вордстата мне таки удавался какое-то время, то, возможно, часть акков рабочих таки была там, но вот какая?
Ненадо трогать Request delay - все нужные задержки выставлены уже При регистрации аккаунтов прокси использовались?
Конечно использовались. Не думаю, что яндекс позволил бы зарегать такое количество акков с одного ипа.
Кстати, есть мысля, что нужно делать не просто проверку прокси на "рабочесть", а нужна проверка на "рабочесть" именно с определённым сервисом. Например поиск определённой подстроки на нужном сервисе. Сейчас купил 10к аккаунтов, проверил выборочно - рабочие. Запустил задачу - парсинг стоит на месте. Теперь у меня ощущение, что прокси не проходят. Или может вёрстка у вордстата изменилась? В дебаг-логе, смотр, есть 200 ответы от сервиса, то есть, по всей видимости прокси проходят... Мдя... пляски с бубном какие-то вместо работы. PS: http://hostingkartinok.com/show-image.php?id=6e729298367a0b8bbaf36e21de05c686
С момента выхода версии с акками уже кое что поменялось и чаще стали ошибки проходить Есть Parser Test в котором видно процесс работы Не надо делать кучи каких то ненужных предположений в этом топике, в следующем обновлении будут улучшения в соответствии с новыми реалиями