1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Найти сайты где встречается текст

Тема в разделе "Техническая поддержка", создана пользователем StreamK, 16 дек 2016.

  1. StreamK

    StreamK A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 май 2016
    Сообщения:
    14
    Симпатии:
    5
    Добрый день.
    Делаю простенький пресет, нужно пройтись по списку сайтов, и если на странице присутствует код google analitics то записать этот домен в файл
    Сделал вот так, но не работает.

    Не могли бы подсказать, как подправить проект.
    Screenshot_2.png

    eyJwcmVzZXQiOiJcdTA0MWZcdTA0M2VcdTA0MzhcdTA0NDFcdTA0M2EgR0EiLCJ2
    YWx1ZSI6eyJwcmVzZXQiOiJcdTA0MWZcdTA0M2VcdTA0MzhcdTA0NDFcdTA0M2Eg
    R0EiLCJwYXJzZXJzIjpbWyJIVE1MOjpUZXh0RXh0cmFjdG9yIiwiZGVmYXVsdCIs
    eyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXItYWdlbnQiLCJ2YWx1ZSI6Ilsl
    IHRvb2xzLnVhLnJhbmRvbSgpICVdIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6
    InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfSx7InR5cGUiOiJjdXN0b21SZXN1bHQi
    LCJyZXN1bHQiOiJkYXRhIiwicmVnZXgiOiInLmdvb2dsZS1hbmFseXRpY3MuY29t
    L2dhLmpzJyIsInJlZ2V4VHlwZSI6ImlzIiwicmVzdWx0VHlwZSI6ImZsYXQiLCJh
    cnJheU5hbWUiOiIiLCJyZXN1bHRzIjpbInN0cmluZyJdfV1dLCJyZXN1bHRzRm9y
    bWF0IjoiJHF1ZXJ5XFxuIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRz
    RmlsZU5hbWUiOiJbJSBJRiBwMS5zdHJpbmcgIT0gJ25vbmUnOyAncmVzdWx0LnR4
    dCc7IEVORCAlXSIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1
    ZSI6Im5vIiwicXVlcmllc0Zyb20iOiJ0ZXh0IiwicXVlcnlGb3JtYXQiOlsiaHR0
    cDovLyRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1
    ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZh
    bHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVp
    bGRlcnNPbkFsbExldmVscyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVy
    d3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1v
    cmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBw
    ZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVycyI6W10s
    ImNvbmZpZ092ZXJyaWRlcyI6W10sInJ1blRhc2tPbkNvbXBsZXRlIjpudWxsLCJ1
    c2VSZXN1bHRzRmlsZUFzUXVlcmllc0ZpbGUiOmZhbHNlLCJydW5UYXNrT25Db21w
    bGV0ZUNvbmZpZyI6ImRlZmF1bHQiLCJ0b29sc0pTIjoiIiwicXVlcmllcyI6Im1h
    aW5mdW4ucnUifX0=
     
  2. AntonR

    AntonR Member

    Регистрация:
    7 дек 2013
    Сообщения:
    84
    Симпатии:
    13
    через фильтр результатов можно сделать.
     
  3. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Ваш пресет не работает потому что в регулярке не используются захватывающие скобки.

    Но, данную задачу лучше решить иным путем:
    1) Сейчас скрипт Google Analytics выглядит так:
    Код:
    <script>
      (function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
      (i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
      m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
      })(window,document,'script','https://www.google-analytics.com/analytics.js','ga');
    
      ga('create', 'идентификатор', 'auto');
      ga('send', 'pageview');
    
    </script>
    То, что у вас на скрине - это похоже старый формат.
    Поэтому возьмем за признак такую регулярку, совместив старый и новый вид:
    Код:
    '//www\.google-analytics\.com/analytics\.js|\.google-analytics\.com/ga\.js'
    2) Правильнее будет использовать фильтр. Поэтому используем эту регулярку в фильтре с типом Regex match. В фильтре захватывающие скобки не нужны.
    3) Для таких целей больше подходит Net::HTTP. Юзерагент особого смысла менять нет.
    Итого, пресет будет выглядеть так:
    [​IMG]
     
    Support Денис, Metroid, Forbidden и ещё 1-му нравится это.

Поделиться этой страницей