Привет, подскажите как можно прочекать домены на наличие в гугл-выдаче китайских символов/букв типа 柿本マフラ и т.д.? Нужно закинуть список доменов, прочекать каждый по site:domen.com если на первой странице в топ-100 есть эти китайские символы, то как-нибудь помечать такие домены или просто не добавлять их в список результата. В результат добавлять только те домены, в которых нет этих китайских символов.
Добрый день. Данная задача довольно просто решается с помощью Unicode скриптов, которые поддерживаются стандартом PCRE (стандарт регулярных выражений, использующихся в A-Parser). Достаточно просто добавить фильтр и им проверять наличие совпадений регулярки по анкорам и сниппетам из выдачи. А в результат выводить сам запрос. В примере проверяется наличие иероглифов китайского (Han), японского (Katakana, Hiragana) и корейского (Hangul) языков. Полный перечень можно найти здесь. Спойлер: Код для импорта Код: eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs InBhcnNlcnMiOltbIlNFOjpHb29nbGUiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVy cmlkZSIsImlkIjoicGFnZWNvdW50IiwidmFsdWUiOjF9LHsidHlwZSI6Im92ZXJy aWRlIiwiaWQiOiJ1c2VhbnRpZ2F0ZSIsInZhbHVlIjp0cnVlfSx7InR5cGUiOiJv dmVycmlkZSIsImlkIjoiYW50aWdhdGVwcmVzZXQiLCJ2YWx1ZSI6IkFHIn0seyJ0 eXBlIjoiZmlsdGVyIiwicmVzdWx0IjoiWyUgc2VycC5mb3JtYXQoJyRhbmNob3Ik c25pcHBldCcpICVdIiwiZmlsdGVyVHlwZSI6InJlbm90bWF0Y2giLCJ2YWx1ZSI6 IltcXHB7SGFufVxccHtLYXRha2FuYX1cXHB7SGlyYWdhbmF9XFxwe0hhbmd1bH1d Iiwib3B0aW9uIjoiaSJ9XV0sInJlc3VsdHNGb3JtYXQiOiIkcXVlcnkub3JpZ1xc biIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiJGRh dGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVz dWx0c1VuaXF1ZSI6Im5vIiwicXVlcmllc0Zyb20iOiJ0ZXh0IiwicXVlcnlGb3Jt YXQiOlsic2l0ZTokcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVG YWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2 ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJx dWVyeUJ1aWxkZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMi Onsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoi Tm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVz dWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRl cnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6 bnVsbCwidXNlUmVzdWx0c0ZpbGVBc1F1ZXJpZXNGaWxlIjpmYWxzZSwicnVuVGFz a09uQ29tcGxldGVDb25maWciOiJkZWZhdWx0IiwidG9vbHNKUyI6IiIsInF1ZXJp ZXMiOiJhLXBhcnNlci5jb21cbmJhaWR1LmNvbVxueGlhb21pLmNvbSJ9fQ==