Есть миллионные списки доменов. Многие из них нерабочие, проэкспайренные. Нужно весь невалид отфильтровать. Невалидные домены есть двух видов - которые не открываются вообще. - которые заредирекчены на страницу регистранта, типа http://kttnet.com или http://ktug.com/ первый вид доменов легко можно прочекать на 200 ОК, как тут http://a-parser.com/threads/772/ а вот вторую группу невалида как можно прочекать? и нужно сохранить в два файла всё отчеканное - отдельно беды, отдельно гуды. Гуды вроде понятно как сохранить, из того же топика, что и выше я привёл, а как беды сохранять? Кто сталкивался с таким, помогите, пожалуйста
либо собирать признаки таких страниц, либо через хуиз - надо смотреть на статусы домена через фильтры никак - отфильтрованный результат просто отбрасывается можно через Results Builder/Parse custom сохранять по регулярному выражению, и потом в формате результата проверять сохранилось или нет
Спасибо!! да, это понятно, что только по косвенным признакам, возможно у кого-то есть уже наработанный материал и готовые фильтры,?
прочекал базу по 200ОК, получил гуды. Из общей базы вычел гуды, получил беды. Эти беды загрузил в МаилВалидатор, запустил на проверку Он показывает, что примерно 25% в этих бедах реально гудовых доменов! Каким образом и где именно ошибка? Или в Апарсере при чеканье на 200ОК. Или на самих сайтах, в том, что они не отдают это 200??? напрмиер такие сайты kszs.at kt-umzuege-transporte.de kswiss.fr Спасибо!