1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсер текста

Тема в разделе "Техническая поддержка", создана пользователем Force68, 26 окт 2013.

  1. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Подскажите пожалуйста,
    как настроить парсер, чтоб он по списку запросов,
    заходил, допустим на первую страницу выдачи гугла,
    затем переходил по ссылкам с выдачи и парсил текст,
    к примеру чтоб в текстовых блоках было не менее 500 знаков,
    (ну или другой какой параметр - смысл в том чтоб текстовой контент парсил,
    а не всё подряд со страницы)

    и сохранял это в текстовой файл, очистив от тегов html и прочего,
    ну вроде как чистый текст чтоб на выходе получался,

    возможно ли так сделать?
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.791
    возможно в 2 этапа:
    1. парсим ссылки на интересующие страницы через парсер SE::Google
    2. парсим контент с этих ссылок с помощью парсера текста HTML::TextExtractor, будет текст очищенный от мусора, минимальную длину блока можно задать в настройках
     
  3. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Спасибо, попробую настроить.
     
  4. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Forbidden, а документации на текст экстрактор то и нету,
    про настройки не почитать как там чего o_O настроить можно
     
  5. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.405
    Симпатии:
    2.116
  6. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Forbidden, спасибо!
     
  7. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    От всё равно непонятно,
    так в настройках есть поле post body
    как я предполагаю для обозначения блока размётки для парсинга =

    пишу туда
    HTML:
    <div class="post"></div>
    но парсится всё равно всё подряд,
    так же при настройках задания есть какие то пункты

    [​IMG]

    но как ими пользоватся фиг знает,

    вы бы показали на примере какого нибудь форума что ли,
    как настроить парсер чтоб спарсить чисто контент без мусора

    типа



     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.791
    POST Body и опции это от парсера Net::HTTP на котором основан Text::Extractor, непосредственного отношения к извлечению текста они не имеют

    вот пример парсинга этой страницы, о каком мусоре идет речь?

    [​IMG]
     
  9. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Хм, ну я имел ввиду возможность парсить только тело сообщения,
    без элементов навигации и пр.
     
  10. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    То есть как выкинуть из результатов парсинга строчку короче определеннго количества символов?
    на скрине это

    [​IMG]
     
  11. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.791
    На странице документации http://a-parser.com/wiki/html-textextractor/ ссылку на которую дали несколько постами выше написано:
    "Min block length 50 Минимальная длинна текстового блока в символах"

    Пример: парсим блоки длиной минимум 200 символов, разделяем отдельный блоки через ------ используя Result format:

    [​IMG]
     
  12. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Спасибо большое.
     
  13. groov

    groov A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 фев 2014
    Сообщения:
    1
    Симпатии:
    0
    А как объединить эти 2 этапа в одном задании?
    Т.е. на входе список ключевых слов, а на выходе текст для каждого ключевого слова в отдельном файле
    или все в одном файле, но по шаблону, например:
    "кейворд1|текст соответствующий кейворду1"
    "кейворд2|текст соответствующий кейворду2"
    и т.д.
     
  14. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.791
    в одном задании - никак, для этого и написано что нужно 2 этапа
    зависимость кейворд - текст можно реализовать так:
    сохранять key|link на первом этапе
    на втором использовать Query Builder для разделения запроса на кей и ссылку
     
  15. Sergey_1

    Sergey_1 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    19 авг 2013
    Сообщения:
    5
    Симпатии:
    0
    Подскажите пожалуйста как сделать

    1-как создать запрос из файла результатов вида
    $query|$link?
    2-как сохранить результаты в разные файлы с названием кей и спаршенному тексту по этому кею внутри?
     
  16. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.791
    [​IMG]
     
  17. Sergey_1

    Sergey_1 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    19 авг 2013
    Сообщения:
    5
    Симпатии:
    0
    благодарю
     

Поделиться этой страницей