1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Проверка доменов на валид

Тема в разделе "Делимся опытом", создана пользователем Robo, 18 фев 2015.

  1. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    Есть миллионные списки доменов. Многие из них нерабочие, проэкспайренные. Нужно весь невалид отфильтровать. Невалидные домены есть двух видов
    - которые не открываются вообще.
    - которые заредирекчены на страницу регистранта, типа http://kttnet.com или http://ktug.com/

    первый вид доменов легко можно прочекать на 200 ОК, как тут http://a-parser.com/threads/772/
    а вот вторую группу невалида как можно прочекать?

    и нужно сохранить в два файла всё отчеканное - отдельно беды, отдельно гуды. Гуды вроде понятно как сохранить, из того же топика, что и выше я привёл, а как беды сохранять?

    Кто сталкивался с таким, помогите, пожалуйста
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    либо собирать признаки таких страниц, либо через хуиз - надо смотреть на статусы домена

    через фильтры никак - отфильтрованный результат просто отбрасывается

    можно через Results Builder/Parse custom сохранять по регулярному выражению, и потом в формате результата проверять сохранилось или нет
     
  3. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    Спасибо!!
    да, это понятно, что только по косвенным признакам, возможно у кого-то есть уже наработанный материал и готовые фильтры,? :)
     
  4. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    прочекал базу по 200ОК, получил гуды. Из общей базы вычел гуды, получил беды.
    Эти беды загрузил в МаилВалидатор, запустил на проверку
    Он показывает, что примерно 25% в этих бедах реально гудовых доменов!
    Каким образом и где именно ошибка? Или в Апарсере при чеканье на 200ОК. Или на самих сайтах, в том, что они не отдают это 200???
    напрмиер такие сайты
    kszs.at
    kt-umzuege-transporte.de
    kswiss.fr

    Спасибо!
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    такие моменты можно отследить только по логам
    прокси используешь? сколько попыток ставишь?
     
  6. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    Прокси НЕ использовал, настройки вот такие
    [​IMG]

    [​IMG]
     

Поделиться этой страницей