а если мне нужно чтоб отбирало с базы 200 ОК но только с content-type: application/x-shockwave-flash (остальные content-type не нужны) можно как-то реализовать в этом чекере? (ну чтоб сохраняло только 200 ОК и только с нужным мне content-type)
Поясните пожалуйста, правильно ли я понимаю что чек по определённому content-type и ответ сервера, обозначает что на том или ином домене присутствует или отсутствует тот или иной контент.
Код ответа сервера показывает доступность контента по запрашиваемому адресу. А content-type показывает какие типы контента отдаются по запросу.
Добрый день - спасибо за ответ. Возникло ещё пару вопросов: 1. в каком формате подавать на парсинг список доменов(надо или нет http и www или без разницы)??? 2.запустила парсинг по настройкам из этого поста, статус в парсере - WORKинг, но прождала более пяти часов, результата всё нет, для тестов использовала всего один домен, как следствие вопрос как долго идёт парсинг в среднем если число страниц на домене от 20000-30000 страниц??? 3. имеет ли значение http или https соединение??? мои настройки
Добрый день. Для парсера Net::HTTP запросы нужно подавать с http В данном примере кол-во страниц на домене не имеет значения. А судя по скринам, вам необходимо проверить прокси (Ожидающих потоков - 1). Не имеет.
Спасибо за ответ - у меня результат, сменила прокси помогло чек прошёл, но результат неудовлетворительный, файл отчёта нулевой ничего нет, но при просмотре через гугл этот сервер и сам домен содержат пдф-ники, в чём изъян??? Может я не правильно трактую - в моём понимании раз идёт чек сервера на наличие контента, то в отчёте должны быть линки на эти пдф-ки или не так???
В данном примере проверяется код ответа и тип контента выдаваемый по конкретной ссылке. Исходя из ваших скринов, я сомневаюсь, что прямо на главной странице будет пдф. Если же вы хотите проверить все содержимое сайта, т.е. все его страницы, то вам нужно использовать HTML::LinkExtractor вместе с фильтрами, о которых речь шла выше.
ОК, а результат будет один и тот же или разный если я использую HTML::LinkExtractor и для сравнения оператор парсинга результатов гугла через site:domen pdf
Если парсить через Гугл, то лучше использовать site:domen filetype:pdf А насчет результатов - теоретически через линкэкстрактор должны быть лучше, но нужно эксперементировать и сравнивать...
К чему я веду, ответ прост способен ли a-parser дотянутся до того до чего к примеру доступ гугл бота перекрыт, то есть контенту спрятанному от индексации???
Макс. кол-во потоков зависит от характеристик вашей системы и скорости Интернет-канала. Рекомендую потестировать на небольшом кол-ве сайтов с разным кол-вом потоков и выбрать оптимальный для себя.
Вопрос не много не в тему, но подскажите) По какой ошибке определять не работающие домены, к примеру fdbgjgjfsbkjgdbflkgbdsfkgjbsdfglkjbg.com ?