1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Проверка доменов\ссылок на 200 ОК 1.0

Проверка кодов ответа по списку сайтов

  1. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Кстати, а как почекать домены на 200 ответ?
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Сохранять только те домены где есть 200 OK:
    [​IMG]

    Сохранять домен: код ответа:
    [​IMG]
     
    #2 Forbidden, 18 сен 2013
    Последнее редактирование модератором: 18 окт 2014
    Max, vipuncle, Oopssik и 3 другим нравится это.
  3. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Спасибо!
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    значительно ускорить обработку можно выбрав в настройках Net::HTTP метод HEAD
     
  5. BlackAlex

    BlackAlex A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    30 янв 2013
    Сообщения:
    27
    Симпатии:
    23
    а если мне нужно чтоб отбирало с базы 200 ОК но только с
    content-type: application/x-shockwave-flash (остальные content-type не нужны)

    [​IMG]

    можно как-то реализовать в этом чекере? (ну чтоб сохраняло только 200 ОК и только с нужным мне content-type)
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Добавляем еще один фильтр по хедерам:

    [​IMG]
     
    alkoustas, vipuncle, Oopssik и ещё 1-му нравится это.
  7. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    Поясните пожалуйста, правильно ли я понимаю что чек по определённому content-type и ответ сервера, обозначает что на том или ином домене присутствует или отсутствует тот или иной контент.
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Код ответа сервера показывает доступность контента по запрашиваемому адресу. А content-type показывает какие типы контента отдаются по запросу.
     
    BESHENEI нравится это.
  9. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    Добрый день - спасибо за ответ.
    Возникло ещё пару вопросов:
    1. в каком формате подавать на парсинг список доменов(надо или нет http и www или без разницы)???
    2.запустила парсинг по настройкам из этого поста, статус в парсере - WORKинг, но прождала более пяти часов, результата всё нет, для тестов использовала всего один домен, как следствие вопрос как долго идёт парсинг в среднем если число страниц на домене от 20000-30000 страниц???
    3. имеет ли значение http или https соединение???

    мои настройки

    [​IMG]

    [​IMG]
     
    #9 BESHENEI, 24 авг 2015
    Последнее редактирование: 24 авг 2015
  10. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Добрый день.
    Для парсера Net::HTTP Net::HTTP запросы нужно подавать с http
    В данном примере кол-во страниц на домене не имеет значения. А судя по скринам, вам необходимо проверить прокси (Ожидающих потоков - 1).
    Не имеет.
     
    BESHENEI нравится это.
  11. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    Спасибо за ответ - у меня результат, сменила прокси помогло чек прошёл, но результат неудовлетворительный, файл отчёта нулевой ничего нет, но при просмотре через гугл этот сервер и сам домен содержат пдф-ники, в чём изъян???
    Может я не правильно трактую - в моём понимании раз идёт чек сервера на наличие контента, то в отчёте должны быть линки на эти пдф-ки или не так???
     
  12. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    В данном примере проверяется код ответа и тип контента выдаваемый по конкретной ссылке. Исходя из ваших скринов, я сомневаюсь, что прямо на главной странице будет пдф. Если же вы хотите проверить все содержимое сайта, т.е. все его страницы, то вам нужно использовать HTML::LinkExtractor HTML::LinkExtractor вместе с фильтрами, о которых речь шла выше.
     
    BESHENEI нравится это.
  13. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    ОК, а результат будет один и тот же или разный если я использую HTML::LinkExtractor и для сравнения оператор парсинга результатов гугла через
    site:domen pdf
     
  14. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Если парсить через Гугл, то лучше использовать site:domen filetype:pdf
    А насчет результатов - теоретически через линкэкстрактор должны быть лучше, но нужно эксперементировать и сравнивать...
     
    BESHENEI нравится это.
  15. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    К чему я веду, ответ прост способен ли a-parser дотянутся до того до чего к примеру доступ гугл бота перекрыт, то есть контенту спрятанному от индексации???
     
  16. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Способен.
     
    BESHENEI нравится это.
  17. WarGuss

    WarGuss A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    5
    Симпатии:
    0
    Подскажите пожалуйста во сколько макс. потоков а-парсером можно проверить базу сайтов на 200 ok ?
     
  18. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Макс. кол-во потоков зависит от характеристик вашей системы и скорости Интернет-канала. Рекомендую потестировать на небольшом кол-ве сайтов с разным кол-вом потоков и выбрать оптимальный для себя.
     
  19. Cruzcastillo

    Cruzcastillo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    28 окт 2013
    Сообщения:
    5
    Симпатии:
    0
    Вопрос не много не в тему, но подскажите) По какой ошибке определять не работающие домены, к примеру fdbgjgjfsbkjgdbflkgbdsfkgjbsdfglkjbg.com ?
     
  20. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    не существующие домены лучше проверять через парсеры Net::Whois Net::Whois или Net::DNS Net::DNS
     

Поделиться этой страницей