Приветствую! Значит там в коде нет данных по той регулярке, по которой вы получаете title, + у вас не стоит флаг многострочного текста "s" у вас стоит только i (учитывать регистр)
А как это можно исправить? Я в регулярках не секу. Просто скопировал из видео. 219 доменов выдали titile нормально, а 6 доменов выдают "none"
выбрать is для начала А если и дальше будет none тогда уже заходить на страницу и смотреть что там не так
попробовал. Похоже дело в чём-то другом. Одни и те же домены не отдают данные. Хотя сторонние платные сервисы находят title на этих сайта. Список сайтов с None: http://smway.ru/ http://remkasam.ru/ http://moscow.adresa-telefony.ru/ http://www.orgpage.ru/ http://www.VivozkaMusora.ru/ http://allcorp-msk.ru/ http://www.skyscrapercity.com/ http://dorremont.ru/ http://www.stroy-buro.ru/ UPDATE: хотя да, даже платный сервис не все title распознает из спорных
На 1-м же сайте ищем в коде страницы <title и его там нет, то что находит другие называется обычно h1
где-то он прямо в самом верху: а где-то в глубине: Но, вроде как, title в коде есть в большинстве случаев
А они в чём виноваты, что я не могу спарсить тайтл, который есть в коде их сайта? )))))))) Может нужно как-то по-другому составить регулярное выражение, чтобы спарсить указанные выше тайтлы? Или что-то другое сделать.
Ну работает все корректно, вы зачем проверку статусов добавили? http://moscow.adresa-telefony.ru/ это 307 редирект, поэтому и получаете none а правильная ссылка https://moscow.adresa-telefony.ru/
В общем изменил User-Agent на более свежий и изменил настройку в пресете "Max redirects count" на 1. Спарсили все, кроме неработающего http://smway.ru/ и работающего, но всё равно непарсящегося http://remkasam.ru/