Добрый день. 1. Ситуация следующая. Парсер из очереди ~600000 доменов выдал пустые стандартные данные, кроме $ns.$i.server (еще кроме "Registrar URL", "Registrant Name", "Registrant Organization", они парсятся регуляркой из "Raw data") примерно в 100000 запросов. Естественно, что эти запросы не "неудачные". Взял из них первые 5000 и запустил тот же парсер (при прочих равных условиях: источник прокси, потоки). Получил 755 "пустых", остальные со всеми данными. Ставлю их в очередь, получаю 214 "пустых". Дальше зависимость проверять не стал, взял несколько доменов и проверил вручную - данные есть. Еще у подавляющего большинства "пустых" доменов сервер whois.godaddy.com. Можно с этим бороться? 2. Еще по выдаче дат. Тут уже были исправления, спасибо. Но есть есть еще выдачи в других форматах. Например, Код: whois.pairnic.com 2007-08-07T03:31:33+0000Z whois.global-village.de 1997-05-21T04:00:00Z.0Z whois.alantron.com 2016-08-31T00:00:00+03:00Z 3. Должны ли неудачные запросы, которые по "Request retries" попадают в queries/failed заносится в файл результатов? Если должны, то как их туда не вносить, а сохранять только в queries/failed? A-Parser v.1.1.791
Добрый день. 1 и 2 перемещено в Задачи. Да, должны, хотя это зависит от того, как выводится результат. Если это обычная переменная, то в результат будет записано none, если массив, который выводится через .format, то будет пустота. Чтобы не выводить результат, если запрос был неудачный, можно фильтровать по $info.success (может принимать значения 1 - запрос удачный и 0 - неудачный):
Для примера: Прогнал 5000, сделал выборку по дате регистрации "none" - получил 3300. В аттаче эта выборка, полный лог по заданию и "whois hsf.net". На первый взгляд, в данной ситуации парсер обрабатывает только "первый блок" данных выдачи whois.
п. 1 решен следующим образом: для whois сервера whois.godaddy.com если получен короткий ответ - делается перепроверка с новым прокси п. 2 исправлен