1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг контента

Тема в разделе "Делимся опытом", создана пользователем seowin555, 28 апр 2017.

  1. seowin555

    seowin555 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 сен 2016
    Сообщения:
    186
    Симпатии:
    37
    Добрый день!
    Есть простой пресет по парсингу текста - http://c2n.me/3JYS183
    Подскажите регулярку для удаления предложения, если там есть буквы, отличные от русских.
    И еще такой вопрос, можно как-то задать максимальный размер контента, который будет парсится?
     
  2. seowin555

    seowin555 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 сен 2016
    Сообщения:
    186
    Симпатии:
    37
    Не поможете с моими вопросами?
     
  3. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Как вариант, можно делать так: https://a-parser.com/threads/1573/page-2#post-8902
    По регулярке ничего подсказать не могу, разве что вот такое:
    Код:
    [A-ZА-Я][^.?!]+[a-zA-Z][^.?!]+[.?!]+\s*
    Но такая регулярка может не сработать, если предложение к примеру начинается с цифры...
     
    seowin555 нравится это.
  4. seowin555

    seowin555 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 сен 2016
    Сообщения:
    186
    Симпатии:
    37
    Подскажите, а правильно я понял, что в данном случае размер контента будет ограничиваться по кею?
    А можно сделать чтобы размер ограничивался по блокам текстам, которые мы парсим?
    Т.е. точно также, как работает настройка "Min block length", только в данном случае указываем максимальную длину текстового блока.
     
  5. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Можно (в примере выводится все, что меньше 200 символов):
    [​IMG]
    Для наглядности здесь выводится длина каждого блока (text.length)
     
    seowin555 нравится это.
  6. seowin555

    seowin555 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 сен 2016
    Сообщения:
    186
    Симпатии:
    37
    Помогите, пожалуйста, найти ошибку в пресете.
    Почему-то файлы получаются нулевого размера в результатах.
    eyJwcmVzZXQiOiJcdTA0MjJcdTA0MzVcdTA0NDFcdTA0NDIgXHUwNDQyXHUwNDM1
    XHUwNDNhXHUwNDQxXHUwNDQyIFx1MDQzMFx1MDQzMVx1MDQzN1x1MDQzMFx1MDQ0
    NiIsInZhbHVlIjp7InByZXNldCI6Ilx1MDQyMlx1MDQzNVx1MDQ0MVx1MDQ0MiBc
    dTA0NDJcdTA0MzVcdTA0M2FcdTA0NDFcdTA0NDIgXHUwNDMwXHUwNDMxXHUwNDM3
    XHUwNDMwXHUwNDQ2IiwicGFyc2VycyI6W1siSFRNTDo6VGV4dEV4dHJhY3RvciIs
    ImRlZmF1bHQiLHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJtaW5ibG9ja2xlbmd0
    aCIsInZhbHVlIjoiMjUwIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InF1ZXJ5
    Zm9ybWF0IiwidmFsdWUiOiIkcXVlcnkubGluayJ9LHsidHlwZSI6ImN1c3RvbVJl
    c3VsdCIsInJlc3VsdCI6WyJ0ZXh0cyIsInRleHQiXSwicmVnZXgiOiIoLns1MCx9
    KSIsInJlZ2V4VHlwZSI6ImciLCJyZXN1bHRUeXBlIjoiYXJyYXkiLCJhcnJheU5h
    bWUiOiJyZXp1bHQiLCJyZXN1bHRzIjpbInRleHQiXX0seyJ0eXBlIjoib3ZlcnJp
    ZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfSx7InR5cGUiOiJvdmVy
    cmlkZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiIkcmV6dWx0LmZvcm1h
    dCgnJHRleHRcXG4nKSJ9XV0sInJlc3VsdHNGb3JtYXQiOiJbJSBGT1JFQUNIIHRl
    eHRzOyAgICAgSUYgdGV4dC5sZW5ndGggPCA3MDA7ICAgICAgICB0ZXh0IF8gXCJc
    XG5cIjsgICBFTkQ7IEVORCAlXSIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz
    dWx0c0ZpbGVOYW1lIjoidGV4dHMtdGV4dC8ke3F1ZXJ5LmtleX0udHh0IiwiYWRk
    aXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyaWVz
    RnJvbSI6ImZpbGUiLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVl
    cmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JP
    cHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVy
    SXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzT25BbGxMZXZlbHMiOmZhbHNl
    fSwicmVzdWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoi
    bm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3Vs
    dHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMi
    Olt7InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InN0cmluZ1NwbGl0Iiwic2VwYXJh
    dG9yIjoifCIsInRvIjpbImtleSIsImxpbmsiXX1dLCJyZXN1bHRzQnVpbGRlcnMi
    OltdLCJjb25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6bnVs
    bCwidXNlUmVzdWx0c0ZpbGVBc1F1ZXJpZXNGaWxlIjpmYWxzZSwicnVuVGFza09u
    Q29tcGxldGVDb25maWciOiJkZWZhdWx0IiwidG9vbHNKUyI6IiIsInByaW8iOjUs
    InF1ZXJpZXNGaWxlIjpbInJlc3VsdHMvd3BzZWQvbGlua2ktdGV4dC9iYW5rcm90
    LnR4dCJdfX0=
     
  7. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
  8. seowin555

    seowin555 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 сен 2016
    Сообщения:
    186
    Симпатии:
    37
  9. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    По всей видимости не разобрались.
    Вы в задании переопределяете формат результата парсера №1 и общий формат результата. При этом в общем формате результата вы не выводите $p1.preset, поэтому в данном случае переопределение формата результата парсера №1 лишнее и не даст никакого эффекта.
    Другими словами, если вы хотите выводить теги <p></p> для каждого блока текста, то добавьте их вывод в общем формате результата. При этом формат результата парсера №1 можно вообще не менять.
     
    seowin555 нравится это.
  10. seowin555

    seowin555 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 сен 2016
    Сообщения:
    186
    Симпатии:
    37
    А можете показать пример как это сделать?

    Насчет этого немного не понял, в общем формате результата я ведь вывожу $p1.preset. Вы наверное посмотрели пресет, а не скрин?
     
  11. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Вы не выводите в общем формате $p1.preset, а пытаетесь перебирать его в цикле.
    [​IMG]
    Рекомендую ознакомиться: https://a-parser.com/wiki/template-toolkit/
     

Поделиться этой страницей