Улучшение Улучшения в работе с аккаунтами в SE::Yandex::WordStat

SHarpshooter

A-Parser Pro License
A-Parser Pro
Приветствую.

Если на сервере несколько внешних интерфейсов, то какой из них будет использован для работы апарсера?
 
И ещё вопрос - из-за чего может возникать ситуация с "wait proxy threads"? На виндовом компе не было такого, а как поставил на линух сервер - постоянно возникают такие процессы.
 
Приветствую.

Если на сервере несколько внешних интерфейсов, то какой из них будет использован для работы апарсера?


Сам себе отвечаю. Сейчас проверил командой "netstat -tupan | grep aparser", используется только основной интерфейс сервера.

PS Тогда нихера не пойму скачков со скоростью и вознкновением тредов, ожидающих проксю.
 
Используется основной

Wait proxy threads может быть в 2ух случаях:
1. Пропадают живые прокси - смотреть в Proxy Checker
2. Прокси баняться парсером(Proxy ban time в настройках) и в итоге все доступные прокси попадают в бан на какое то время

о каком парсере речь?
 
В прокси чекере прокси от файнов, перепроверяются каждые 10 минут. Может быть можно сделать как-то их проверку на конкретный сервис?

Для вордстата какой оптимально Proxy ban time установить?
 
И ещё вдогонку вопрос по поводу количества живых акков, которые создаёт SE::Yandex::Register. Где-нибудь это можно проверить? При работе где-нить отмечается, какие из них сдохли (по аналогии с проксями)?
 
Не отмечаются, в files/SE-Yandex/accounts.txt автоматически сохраняются все зареганные акки, и оттуда же они в дальнейшем используются в вордстате

Сколько всего живых проксей отображает во вкладке чекера?
 
Мда... всё же походу это файнов колбасило.

Сейчас скорость держится на уровне 4к кеев в минуту. Failed requests проскакивают, но очень мало.

В парсере SE:Yandex:Wordstat сделал настройки Request retries = 100 и Request delay = 5 сек.
 
Сколько всего живых проксей отображает во вкладке чекера?

2993 из 3к

Но кстати, и днём было под 3к живых проксей, однако скорость скакала.

А сейчас иногда текущая скорость проседает до 3,6к и проскакивает серия failed queries, причём тредов ожидающих проксю не появляется, как это было днём. Так продолжается какое-то время (секунд 20-30), потом скорость снова возрастает до 4к и какое-то время до очередного проседания хреначит на нормальной скорости без фейлов.
 
Может ли это проседание быть связано с баном яндекс-акка? А часть запросов, которые парсились через него - валятся в failed?
 
И кстати ещё вопрос, если нигде не указывается количество работчих яндекс-акков, то как понять, когда их надо пополнить?
 
Может ли это проседание быть связано с баном яндекс-акка? А часть запросов, которые парсились через него - валятся в failed?
И кстати ещё вопрос, если нигде не указывается количество работчих яндекс-акков, то как понять, когда их надо пополнить?

Может, работа с забанеными аккаунтами еще никак не отслеживается, работа с аккаунтам появилась только в текущей версии, соберем статистику и улучшим что-то, если потребуется
 
Да, очень хотелось бы иметь мониторинг живых яндекс-аккаунтов, а то вслепую не понятно - нужны ещё акки или нет, с ними связано проседание скорости или нет, можно ли оставить парсер без присмотра и быть уверенным, что работа будет корректно продолжена. Сейчас не получается накидать заданий и оставить парсер колбасить свою работу, нужно постоянно присматривать за ним. Ночью пока сидел - херачило под 3к кеев в минуту, оставил парситься, утром прихожу - даже та выборка, за которой следил ночью - не допарсилась, всё валится в failed queries. Обидно, даже не то, что скорость упала до 20 кеев в минуту, а то, что в выборке под 500к немалая часть запросов ушла в failed, то есть надо всю выборку сначала перечекивать. По сути, автономного режима работы сейчас не получается, за парсером нужен постоянный присмотр (применительно к парсеру вордстата говорю).
 
Вот, к примеру, я зарегистрировал по вашему мануалу 1000 аккаунтов, используя 3к проксей. Вроде всё зарегистрировалось ОК. Пошёл парсить. А на следующий день, думаю, дай-ка гляну, живые акки или нет, первые 10 акков, проверенные вручную были сдохшими. Так может быть там из этой пачки в 1к всего-то в результате было пару сотен живых акков? Как это узнать? Однозначно нужен мониторинг живых акков и, возможно, какие-то дополнительные рекомендации для повышения проходимости акков при регистрации, и меньшего их мора - например рекомендации по таймаутам, max допустимому количеству запросов за единицу времени и т.д.
 
Щас попробовал удалить все те акки, что создавал вчера и позавчера и создать новых, причём с 60 секундной задержкой в парсере регистрации акков (Request delay = 60 сек). При перепроверке выборочно вручную через минут 30-40 после создания - ни в один залогиниться не получилось. В итоге, капча хавается исправно (= бабки улетают в пустоту), а нормальных акков я так и не увидел. Хотя если учесть, что парсинг вордстата мне таки удавался какое-то время, то, возможно, часть акков рабочих таки была там, но вот какая?
 
Ненадо трогать Request delay - все нужные задержки выставлены уже
При регистрации аккаунтов прокси использовались?
 
Ненадо трогать Request delay - все нужные задержки выставлены уже
При регистрации аккаунтов прокси использовались?

Конечно использовались. Не думаю, что яндекс позволил бы зарегать такое количество акков с одного ипа.
 
Кстати, есть мысля, что нужно делать не просто проверку прокси на "рабочесть", а нужна проверка на "рабочесть" именно с определённым сервисом. Например поиск определённой подстроки на нужном сервисе. Сейчас купил 10к аккаунтов, проверил выборочно - рабочие. Запустил задачу - парсинг стоит на месте. Теперь у меня ощущение, что прокси не проходят. Или может вёрстка у вордстата изменилась? В дебаг-логе, смотр, есть 200 ответы от сервиса, то есть, по всей видимости прокси проходят...

Мдя... пляски с бубном какие-то вместо работы.

PS: http://hostingkartinok.com/show-image.php?id=6e729298367a0b8bbaf36e21de05c686
 
С момента выхода версии с акками уже кое что поменялось и чаще стали ошибки проходить

Теперь у меня ощущение, что прокси не проходят
Есть Parser Test в котором видно процесс работы

Или может вёрстка у вордстата изменилась?
Не надо делать кучи каких то ненужных предположений в этом топике, в следующем обновлении будут улучшения в соответствии с новыми реалиями
 
Назад
Верх