1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Как сделать парсинг и скан сайтов в одном пресете

Тема в разделе "Техническая поддержка", создана пользователем StreamK, 21 июн 2016.

  1. StreamK

    StreamK A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 май 2016
    Сообщения:
    14
    Симпатии:
    5
    Здравствуйте.

    Можно ли в одном пресете, указать только ссылки на сайты, а далее а-парсер сам просканирует страницы и вытащит текст.
    Если не затруднит распишите как это сделать.
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Добрый день.
    Можно и довольно просто. Нужно использовать одновременно 2 парсера: HTML::LinkExtractor HTML::LinkExtractor и HTML::TextExtractor HTML::TextExtractor. Таким образом первый будет отвечать за проход по всем страницам в глубину, а второй - за текст.
    Самый простой вариант реализации выглядит так:
    323123123.png
     
    StreamK и vipuncle нравится это.
  3. vipuncle

    vipuncle A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 апр 2015
    Сообщения:
    125
    Симпатии:
    42
    А возможно ли сразу разбить текст на части, например по 20 символов.
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Да, Конструктором результатов:
    4tretet.png
     
    vipuncle нравится это.
  5. vipuncle

    vipuncle A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 апр 2015
    Сообщения:
    125
    Симпатии:
    42
    Нарезал данным методом фраз, хотел скормить парсеру, но увы "Error: Queries file must be in UTF-8" , а файл получился большой и как его щас перевернуть в UTF-8 не понятно :(
    Почему парсер не может перекодировать в UTF-8 ?
     
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Сбросьте (можно в личку) ваше задание и используемые запросы - я проверю. Дело в том, что парсер работает только с UTF-8 без BOM, и только в этой кодировке сохраняет результаты. Поэтому очень странно, что файл, полученный в одном задании, не подходит из-за кодировки в другом.
     

Поделиться этой страницей