1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Отфильтровать определённые символы из выдачи

Тема в разделе "Делимся опытом", создана пользователем signup, 27 мар 2017.

  1. signup

    signup A-Parser Pro License
    A-Parser Pro

    Регистрация:
    2 апр 2013
    Сообщения:
    15
    Симпатии:
    2
    Привет, подскажите как можно прочекать домены на наличие в гугл-выдаче китайских символов/букв типа 柿本マフラ и т.д.?
    Нужно закинуть список доменов, прочекать каждый по site:domen.com если на первой странице в топ-100 есть эти китайские символы, то как-нибудь помечать такие домены или просто не добавлять их в список результата. В результат добавлять только те домены, в которых нет этих китайских символов.
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.546
    Симпатии:
    2.163
    Добрый день.
    Данная задача довольно просто решается с помощью Unicode скриптов, которые поддерживаются стандартом PCRE (стандарт регулярных выражений, использующихся в A-Parser). Достаточно просто добавить фильтр и им проверять наличие совпадений регулярки по анкорам и сниппетам из выдачи. А в результат выводить сам запрос.
    [​IMG]
    В примере проверяется наличие иероглифов китайского (Han), японского (Katakana, Hiragana) и корейского (Hangul) языков. Полный перечень можно найти здесь.
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
    InBhcnNlcnMiOltbIlNFOjpHb29nbGUiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVy
    cmlkZSIsImlkIjoicGFnZWNvdW50IiwidmFsdWUiOjF9LHsidHlwZSI6Im92ZXJy
    aWRlIiwiaWQiOiJ1c2VhbnRpZ2F0ZSIsInZhbHVlIjp0cnVlfSx7InR5cGUiOiJv
    dmVycmlkZSIsImlkIjoiYW50aWdhdGVwcmVzZXQiLCJ2YWx1ZSI6IkFHIn0seyJ0
    eXBlIjoiZmlsdGVyIiwicmVzdWx0IjoiWyUgc2VycC5mb3JtYXQoJyRhbmNob3Ik
    c25pcHBldCcpICVdIiwiZmlsdGVyVHlwZSI6InJlbm90bWF0Y2giLCJ2YWx1ZSI6
    IltcXHB7SGFufVxccHtLYXRha2FuYX1cXHB7SGlyYWdhbmF9XFxwe0hhbmd1bH1d
    Iiwib3B0aW9uIjoiaSJ9XV0sInJlc3VsdHNGb3JtYXQiOiIkcXVlcnkub3JpZ1xc
    biIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiJGRh
    dGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVz
    dWx0c1VuaXF1ZSI6Im5vIiwicXVlcmllc0Zyb20iOiJ0ZXh0IiwicXVlcnlGb3Jt
    YXQiOlsic2l0ZTokcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVG
    YWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2
    ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJx
    dWVyeUJ1aWxkZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMi
    Onsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoi
    Tm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVz
    dWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRl
    cnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6
    bnVsbCwidXNlUmVzdWx0c0ZpbGVBc1F1ZXJpZXNGaWxlIjpmYWxzZSwicnVuVGFz
    a09uQ29tcGxldGVDb25maWciOiJkZWZhdWx0IiwidG9vbHNKUyI6IiIsInF1ZXJp
    ZXMiOiJhLXBhcnNlci5jb21cbmJhaWR1LmNvbVxueGlhb21pLmNvbSJ9fQ==
     
    btr, BESHENEI, Alex и 2 другим нравится это.

Поделиться этой страницей