1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг ссылок с sitemap.xml и meta keywords со всех ссылок

Тема в разделе "Делимся опытом", создана пользователем Force68, 10 ноя 2014.

  1. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Подскажите пожалуйста, как с помощью LinkExtractor спарсить все ссылки с карты сайта sitemap.xml, и как можно затем с полученных страниц спарсить данные из поля <meta name="keywords" content="">
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    [​IMG]

    [​IMG]
     
    fancy27 и Force68 нравится это.
  3. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Forbidden, спасибо большое, то что надо.
     
  4. Max

    Max A-Parser Pro License
    A-Parser Pro

    Регистрация:
    3 июн 2013
    Сообщения:
    13
    Симпатии:
    1
    Добрый день, чтобы не создавать лишних тем, напишу здесь.
    Похожая ситуация, нужно спарсить текст ТОЛЬКО! из блоков <p>...</p>, запрос такой: http://www.liveinternet.ru/q/?q=скачать полную версию winamp
    пробовал так:
    [​IMG]
    парсит все блоки подряд где есть закрывающий тег </p>, а мне нужно только эти: (ну, 10 шт. с 1-й стр.)
    [​IMG]
    [​IMG]
    Подскажите пож. какие регулярки использовать, самому не осилить)))
    Спасибо.
     
  5. LmPopo

    LmPopo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 янв 2013
    Сообщения:
    88
    Симпатии:
    26
    upload_2015-1-19_18-40-23.png
     
    Forbidden и Max нравится это.
  6. Max

    Max A-Parser Pro License
    A-Parser Pro

    Регистрация:
    3 июн 2013
    Сообщения:
    13
    Симпатии:
    1
    LmPopo спасиб большое! получается, вот терь бьюсь как от тегов все очищать..
    что то, ни RegexMatch ни RegexReplace не помогают, может кто знает как почистить сразу результаты?
    Спасибо.
     
  7. LmPopo

    LmPopo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 янв 2013
    Сообщения:
    88
    Симпатии:
    26
    Results Builder - Remove HTML tags
    Там же не повредит добавить Decode HTML entities
     
    Forbidden и Max нравится это.
  8. Александр Майстренко

    Александр Майстренко A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    17 фев 2020
    Сообщения:
    8
    Симпатии:
    2
    Подскажите, пожалуйста, если карта сайта в формате sitemap.xml.gz и в нее еще вложены карты в таком же формате. Как получить все УРЛ?
     

Поделиться этой страницей