1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 1100+ и мы растем!
    Скрыть объявление

Спаршенный $title со значение "none"

Тема в разделе "Техническая поддержка", создана пользователем Gooods1710, 29 ноя 2019.

  1. Gooods1710

    Gooods1710 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 ноя 2019
    Сообщения:
    10
    Симпатии:
    0
    Подскажите, пожалуйста, почему некоторые title не парсятся, а выдают "none"?

    Настройки:
    upload_2019-11-29_21-28-19.png
    Результат:
    upload_2019-11-29_21-29-13.png
     
  2. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    200
    Симпатии:
    18
    Приветствую!
    Значит там в коде нет данных по той регулярке, по которой вы получаете title, + у вас не стоит флаг многострочного текста "s" у вас стоит только i (учитывать регистр)
     
  3. Gooods1710

    Gooods1710 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 ноя 2019
    Сообщения:
    10
    Симпатии:
    0
    А как это можно исправить? Я в регулярках не секу. Просто скопировал из видео. 219 доменов выдали titile нормально, а 6 доменов выдают "none"
     
  4. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    200
    Симпатии:
    18
    upload_2019-11-29_22-9-7.png
    выбрать is для начала
    А если и дальше будет none тогда уже заходить на страницу и смотреть что там не так
     
  5. Gooods1710

    Gooods1710 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 ноя 2019
    Сообщения:
    10
    Симпатии:
    0
    попробовал. Похоже дело в чём-то другом. Одни и те же домены не отдают данные. Хотя сторонние платные сервисы находят title на этих сайта.

    Список сайтов с None:
    http://smway.ru/
    http://remkasam.ru/
    http://moscow.adresa-telefony.ru/
    http://www.orgpage.ru/
    http://www.VivozkaMusora.ru/
    http://allcorp-msk.ru/
    http://www.skyscrapercity.com/
    http://dorremont.ru/
    http://www.stroy-buro.ru/

    UPDATE: хотя да, даже платный сервис не все title распознает из спорных
     
    #5 Gooods1710, 30 ноя 2019
    Последнее редактирование: 30 ноя 2019
  6. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    200
    Симпатии:
    18
    На 1-м же сайте ищем в коде страницы <title и его там нет, то что находит другие называется обычно h1
     
  7. Gooods1710

    Gooods1710 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 ноя 2019
    Сообщения:
    10
    Симпатии:
    0
    где-то он прямо в самом верху:
    upload_2019-11-30_16-10-34.png

    а где-то в глубине:
    upload_2019-11-30_16-12-2.png

    upload_2019-11-30_16-13-3.png

    Но, вроде как, title в коде есть в большинстве случаев
     
  8. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    200
    Симпатии:
    18
    Ну а тут его нет
    http://smway.ru/
    Все претензии к сайтам)))
     
  9. Gooods1710

    Gooods1710 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 ноя 2019
    Сообщения:
    10
    Симпатии:
    0
    А они в чём виноваты, что я не могу спарсить тайтл, который есть в коде их сайта? ))))))))

    Может нужно как-то по-другому составить регулярное выражение, чтобы спарсить указанные выше тайтлы? Или что-то другое сделать.
     
  10. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    200
    Симпатии:
    18
  11. Gooods1710

    Gooods1710 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 ноя 2019
    Сообщения:
    10
    Симпатии:
    0
    В общем изменил User-Agent на более свежий и изменил настройку в пресете "Max redirects count" на 1. Спарсили все, кроме неработающего http://smway.ru/ и работающего, но всё равно непарсящегося http://remkasam.ru/
     
    #11 Gooods1710, 30 ноя 2019
    Последнее редактирование: 30 ноя 2019

Поделиться этой страницей