Проверка доменов на валид

  • Автор темы Автор темы Robo
  • Дата начала Дата начала

Robo

A-Parser Pro License
A-Parser Pro
Есть миллионные списки доменов. Многие из них нерабочие, проэкспайренные. Нужно весь невалид отфильтровать. Невалидные домены есть двух видов
- которые не открываются вообще.
- которые заредирекчены на страницу регистранта, типа http://kttnet.com или http://ktug.com/

первый вид доменов легко можно прочекать на 200 ОК, как тут http://a-parser.com/threads/772/
а вот вторую группу невалида как можно прочекать?

и нужно сохранить в два файла всё отчеканное - отдельно беды, отдельно гуды. Гуды вроде понятно как сохранить, из того же топика, что и выше я привёл, а как беды сохранять?

Кто сталкивался с таким, помогите, пожалуйста
 
а вот вторую группу невалида как можно прочекать?

либо собирать признаки таких страниц, либо через хуиз - надо смотреть на статусы домена

и нужно сохранить в два файла всё отчеканное - отдельно беды, отдельно гуды. Гуды вроде понятно как сохранить, из того же топика, что и выше я привёл, а как беды сохранять?

через фильтры никак - отфильтрованный результат просто отбрасывается

можно через Results Builder/Parse custom сохранять по регулярному выражению, и потом в формате результата проверять сохранилось или нет
 
Спасибо!!
либо собирать признаки таких страниц, либо через хуиз - надо смотреть на статусы домена
да, это понятно, что только по косвенным признакам, возможно у кого-то есть уже наработанный материал и готовые фильтры,? :)
 
прочекал базу по 200ОК, получил гуды. Из общей базы вычел гуды, получил беды.
Эти беды загрузил в МаилВалидатор, запустил на проверку
Он показывает, что примерно 25% в этих бедах реально гудовых доменов!
Каким образом и где именно ошибка? Или в Апарсере при чеканье на 200ОК. Или на самих сайтах, в том, что они не отдают это 200???
напрмиер такие сайты
kszs.at
kt-umzuege-transporte.de
kswiss.fr

Спасибо!
 
такие моменты можно отследить только по логам
прокси используешь? сколько попыток ставишь?
 
Прокси НЕ использовал, настройки вот такие
33d439eb328202115f239224e9d05f7b.png


a564e34eea7317b6469e389fb057c9bf.png
 
Назад
Верх