Найти сайты где встречается текст

  • Автор темы Автор темы StreamK
  • Дата начала Дата начала

StreamK

A-Parser Pro License
A-Parser Pro
Добрый день.
Делаю простенький пресет, нужно пройтись по списку сайтов, и если на странице присутствует код google analitics то записать этот домен в файл
Сделал вот так, но не работает.

Не могли бы подсказать, как подправить проект.
Screenshot_2.png

eyJwcmVzZXQiOiJcdTA0MWZcdTA0M2VcdTA0MzhcdTA0NDFcdTA0M2EgR0EiLCJ2
YWx1ZSI6eyJwcmVzZXQiOiJcdTA0MWZcdTA0M2VcdTA0MzhcdTA0NDFcdTA0M2Eg
R0EiLCJwYXJzZXJzIjpbWyJIVE1MOjpUZXh0RXh0cmFjdG9yIiwiZGVmYXVsdCIs
eyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXItYWdlbnQiLCJ2YWx1ZSI6Ilsl
IHRvb2xzLnVhLnJhbmRvbSgpICVdIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6
InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfSx7InR5cGUiOiJjdXN0b21SZXN1bHQi
LCJyZXN1bHQiOiJkYXRhIiwicmVnZXgiOiInLmdvb2dsZS1hbmFseXRpY3MuY29t
L2dhLmpzJyIsInJlZ2V4VHlwZSI6ImlzIiwicmVzdWx0VHlwZSI6ImZsYXQiLCJh
cnJheU5hbWUiOiIiLCJyZXN1bHRzIjpbInN0cmluZyJdfV1dLCJyZXN1bHRzRm9y
bWF0IjoiJHF1ZXJ5XFxuIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRz
RmlsZU5hbWUiOiJbJSBJRiBwMS5zdHJpbmcgIT0gJ25vbmUnOyAncmVzdWx0LnR4
dCc7IEVORCAlXSIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1
ZSI6Im5vIiwicXVlcmllc0Zyb20iOiJ0ZXh0IiwicXVlcnlGb3JtYXQiOlsiaHR0
cDovLyRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1
ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZh
bHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVp
bGRlcnNPbkFsbExldmVscyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVy
d3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1v
cmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBw
ZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVycyI6W10s
ImNvbmZpZ092ZXJyaWRlcyI6W10sInJ1blRhc2tPbkNvbXBsZXRlIjpudWxsLCJ1
c2VSZXN1bHRzRmlsZUFzUXVlcmllc0ZpbGUiOmZhbHNlLCJydW5UYXNrT25Db21w
bGV0ZUNvbmZpZyI6ImRlZmF1bHQiLCJ0b29sc0pTIjoiIiwicXVlcmllcyI6Im1h
aW5mdW4ucnUifX0=
 
Ваш пресет не работает потому что в регулярке не используются захватывающие скобки.

Но, данную задачу лучше решить иным путем:
1) Сейчас скрипт Google Analytics выглядит так:
Код:
<script>
  (function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
  (i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
  m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
  })(window,document,'script','https://www.google-analytics.com/analytics.js','ga');

  ga('create', 'идентификатор', 'auto');
  ga('send', 'pageview');

</script>
То, что у вас на скрине - это похоже старый формат.
Поэтому возьмем за признак такую регулярку, совместив старый и новый вид:
Код:
'//www\.google-analytics\.com/analytics\.js|\.google-analytics\.com/ga\.js'
2) Правильнее будет использовать фильтр. Поэтому используем эту регулярку в фильтре с типом Regex match. В фильтре захватывающие скобки не нужны.
3) Для таких целей больше подходит Net::HTTP. Юзерагент особого смысла менять нет.
Итого, пресет будет выглядеть так:
KACxS.png
 
Назад
Верх