Проверка доменов/ссылок на 200 ОК

Пресет Проверка доменов\ссылок на 200 ОК 1.0

Available for license holders
  • Автор темы Автор темы Force68
  • Дата начала Дата начала

Force68

A-Parser Enterprise License
A-Parser Enterprise
Кстати, а как почекать домены на 200 ответ?
 
Сохранять только те домены где есть 200 OK:
Rr816.png


Сохранять домен: код ответа:
7e82S.png
 
Последнее редактирование модератором:
значительно ускорить обработку можно выбрав в настройках Net::HTTP метод HEAD
 
а если мне нужно чтоб отбирало с базы 200 ОК но только с
content-type: application/x-shockwave-flash (остальные content-type не нужны)

iYIMwu.png


можно как-то реализовать в этом чекере? (ну чтоб сохраняло только 200 ОК и только с нужным мне content-type)
 
Поясните пожалуйста, правильно ли я понимаю что чек по определённому content-type и ответ сервера, обозначает что на том или ином домене присутствует или отсутствует тот или иной контент.
 
Код ответа сервера показывает доступность контента по запрашиваемому адресу. А content-type показывает какие типы контента отдаются по запросу.
 
Добрый день - спасибо за ответ.
Возникло ещё пару вопросов:
1. в каком формате подавать на парсинг список доменов(надо или нет http и www или без разницы)???
2.запустила парсинг по настройкам из этого поста, статус в парсере - WORKинг, но прождала более пяти часов, результата всё нет, для тестов использовала всего один домен, как следствие вопрос как долго идёт парсинг в среднем если число страниц на домене от 20000-30000 страниц???
3. имеет ли значение http или https соединение???

мои настройки

cd9d47ef925fe4b88e191b131aba3e7f.jpg


385360dc8e1712dc1aaa29a59b2c94de.jpg
 
Последнее редактирование:
Добрый день.
1. в каком формате подавать на парсинг список доменов(надо или нет http и www или без разницы)???
Для парсера Net::HTTP Net::HTTP запросы нужно подавать с http
2.запустила парсинг по настройкам из этого поста, статус в парсере - WORKинг, но прождала более пяти часов, результата всё нет, для тестов использовала всего один домен, как следствие вопрос как долго идёт парсинг в среднем если число страниц на домене от 20000-30000 страниц???
В данном примере кол-во страниц на домене не имеет значения. А судя по скринам, вам необходимо проверить прокси (Ожидающих потоков - 1).
3. имеет ли значение http или https соединение???
Не имеет.
 
Спасибо за ответ - у меня результат, сменила прокси помогло чек прошёл, но результат неудовлетворительный, файл отчёта нулевой ничего нет, но при просмотре через гугл этот сервер и сам домен содержат пдф-ники, в чём изъян???
Может я не правильно трактую - в моём понимании раз идёт чек сервера на наличие контента, то в отчёте должны быть линки на эти пдф-ки или не так???
 
В данном примере проверяется код ответа и тип контента выдаваемый по конкретной ссылке. Исходя из ваших скринов, я сомневаюсь, что прямо на главной странице будет пдф. Если же вы хотите проверить все содержимое сайта, т.е. все его страницы, то вам нужно использовать HTML::LinkExtractor HTML::LinkExtractor вместе с фильтрами, о которых речь шла выше.
 
ОК, а результат будет один и тот же или разный если я использую HTML::LinkExtractor и для сравнения оператор парсинга результатов гугла через
site:domen pdf
 
Если парсить через Гугл, то лучше использовать site:domen filetype:pdf
А насчет результатов - теоретически через линкэкстрактор должны быть лучше, но нужно эксперементировать и сравнивать...
 
Подскажите пожалуйста во сколько макс. потоков а-парсером можно проверить базу сайтов на 200 ok ?
 
Макс. кол-во потоков зависит от характеристик вашей системы и скорости Интернет-канала. Рекомендую потестировать на небольшом кол-ве сайтов с разным кол-вом потоков и выбрать оптимальный для себя.
 
Вопрос не много не в тему, но подскажите) По какой ошибке определять не работающие домены, к примеру fdbgjgjfsbkjgdbflkgbdsfkgjbsdfglkjbg.com ?
 
Назад
Верх