Отфильтровать определённые символы из выдачи

  • Автор темы Автор темы signup
  • Дата начала Дата начала

signup

A-Parser Pro License
A-Parser Pro
Привет, подскажите как можно прочекать домены на наличие в гугл-выдаче китайских символов/букв типа 柿本マフラ и т.д.?
Нужно закинуть список доменов, прочекать каждый по site:domen.com если на первой странице в топ-100 есть эти китайские символы, то как-нибудь помечать такие домены или просто не добавлять их в список результата. В результат добавлять только те домены, в которых нет этих китайских символов.
 
Добрый день.
Данная задача довольно просто решается с помощью Unicode скриптов, которые поддерживаются стандартом PCRE (стандарт регулярных выражений, использующихся в A-Parser). Достаточно просто добавить фильтр и им проверять наличие совпадений регулярки по анкорам и сниппетам из выдачи. А в результат выводить сам запрос.
ogEvF.png

В примере проверяется наличие иероглифов китайского (Han), японского (Katakana, Hiragana) и корейского (Hangul) языков. Полный перечень можно найти здесь.
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIlNFOjpHb29nbGUiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVy
cmlkZSIsImlkIjoicGFnZWNvdW50IiwidmFsdWUiOjF9LHsidHlwZSI6Im92ZXJy
aWRlIiwiaWQiOiJ1c2VhbnRpZ2F0ZSIsInZhbHVlIjp0cnVlfSx7InR5cGUiOiJv
dmVycmlkZSIsImlkIjoiYW50aWdhdGVwcmVzZXQiLCJ2YWx1ZSI6IkFHIn0seyJ0
eXBlIjoiZmlsdGVyIiwicmVzdWx0IjoiWyUgc2VycC5mb3JtYXQoJyRhbmNob3Ik
c25pcHBldCcpICVdIiwiZmlsdGVyVHlwZSI6InJlbm90bWF0Y2giLCJ2YWx1ZSI6
IltcXHB7SGFufVxccHtLYXRha2FuYX1cXHB7SGlyYWdhbmF9XFxwe0hhbmd1bH1d
Iiwib3B0aW9uIjoiaSJ9XV0sInJlc3VsdHNGb3JtYXQiOiIkcXVlcnkub3JpZ1xc
biIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiJGRh
dGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVz
dWx0c1VuaXF1ZSI6Im5vIiwicXVlcmllc0Zyb20iOiJ0ZXh0IiwicXVlcnlGb3Jt
YXQiOlsic2l0ZTokcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVG
YWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2
ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJx
dWVyeUJ1aWxkZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMi
Onsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoi
Tm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVz
dWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRl
cnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6
bnVsbCwidXNlUmVzdWx0c0ZpbGVBc1F1ZXJpZXNGaWxlIjpmYWxzZSwicnVuVGFz
a09uQ29tcGxldGVDb25maWciOiJkZWZhdWx0IiwidG9vbHNKUyI6IiIsInF1ZXJp
ZXMiOiJhLXBhcnNlci5jb21cbmJhaWR1LmNvbVxueGlhb21pLmNvbSJ9fQ==
 
Назад
Верх