1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг предложений по критериям

Тема в разделе "Техническая поддержка", создана пользователем poiskspider, 24 сен 2015.

  1. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Думал, но так и не придумал, как это реализовать.
    Есть предварительно собранный список урлов.
    С него нужно получить информацию по заданным критериям:

    1) Парсить предложения не более 140 символов в предложении

    2) Надо что бы в этом предложении находилось определенное слово или словосочетание из предложенных ключевиков.

    3) Сохранять найденное в один файл, но каждое спарсенное предложение с новой строки.


    Если можно, сие чудо получить кодом пресета… Заранее благодарен за помощь
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.505
    Симпатии:
    2.150
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
    InBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
    cGUiOiJvdmVycmlkZSIsImlkIjoibWluYmxvY2tsZW5ndGgiLCJ2YWx1ZSI6IjEw
    In0seyJ0eXBlIjoiZmlsdGVyIiwicmVzdWx0IjpbInRleHRzIiwidGV4dCJdLCJm
    aWx0ZXJUeXBlIjoicmVtYXRjaCIsInZhbHVlIjoiXHUwNDNmXHUwNDMwXHUwNDQw
    XHUwNDQxXHUwNDM1XHUwNDQwfHBhcnNlcnxcdTA0M2FcdTA0M2JcdTA0NGVcdTA0
    NDciLCJvcHRpb24iOiJpIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6ImZvcm1h
    dHJlc3VsdCIsInZhbHVlIjoiWyUgbGVuID0gMTQwO1xuRk9SRUFDSCB0ZXh0cyBJ
    TiB0ZXh0cztcblx0SUYgdGV4dHMudGV4dC5sZW5ndGggPCBsZW47XG4gICAgXHR0
    ZXh0cy50ZXh0IF9cIlxcblwiO1xuICAgIEVORDtcbkVORCAlXSJ9XV0sInJlc3Vs
    dHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJy
    ZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCkudHh0IiwiYWRkaXRp
    b25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1h
    dCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRR
    dWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpm
    YWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlfSwicmVzdWx0
    c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVw
    VW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5k
    IjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1
    bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0=
    • Min block length - минимальная длина предложения
    • В фильтре через символ | перечисляем ключи, которые должны быть в предложении
    • В Result format переменная len - максимальная длина предложения
     
    vipdenya и Max нравится это.
  3. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Прелестно!
    Общая тенденция правильная, но почему в файле результата попадаются предложения, которые не содержат ключевые слова. У вас на скрине примера они так же видны (Главная, Демо, Форум). Как это отфильтровать, что бы чистые шли предложения, строго по заданию?
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.505
    Симпатии:
    2.150
    Потому что
    это один текстовый блок, в котором слова разделены переводом строки. И этот текстовый блок подходит под фильтр. Для наглядности вот скрин с разделением текстовых блоков:
    [​IMG]
    Перевод строки можно убрать, заменив Конструктором результатов \n на пробел.

    Или же отфильтровывать все те блоки, что содержат в себе перевод строки:
    [​IMG]
     
    vipdenya и Force68 нравится это.
  5. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Ясно, спасибо за дельные советы. Вы как всегда лучшие!!!
     

Поделиться этой страницей