1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Подскажите парсер текста

Тема в разделе "Техническая поддержка", создана пользователем kolya757, 30 мар 2015.

  1. jfx

    jfx A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2016
    Сообщения:
    7
    Симпатии:
    1
    Спасибо, все получилось!
     
  2. crazypeople

    crazypeople A-Parser Pro License
    A-Parser Pro

    Регистрация:
    23 фев 2019
    Сообщения:
    17
    Симпатии:
    0
    А как быть если тысячи запросов? Вы привели пример второго парсинга, где указали спаршенные 10 ссылок в текстовом формате. А нужно сначала спарсить по тысяче ключам 10 ссылок из выдачи, а потом из этих 10 ссылок парсить текст. Я не понимаю как можно скормить второму парсеру тысячи спаршенных текстовых файлов (по 10 ссылок в каждом) и потом ещё и записать спаршенное в отдельныё шаблоны. Или как можно это объединить?
     
  3. Support Artur

    Support Artur A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    6 апр 2020
    Сообщения:
    172
    Симпатии:
    46
    Добрый день, вам нужно использовать цепочку заданий
    здесь пример описан
    https://a-parser.com/resources/326/
     
  4. crazypeople

    crazypeople A-Parser Pro License
    A-Parser Pro

    Регистрация:
    23 фев 2019
    Сообщения:
    17
    Симпатии:
    0
    А парсер то какой использовать при этом? Сейчас их два в вашем примере, и как и куда прицеплять цепочку не понятно.
    Пример можно?
     
  5. Support Artur

    Support Artur A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    6 апр 2020
    Сообщения:
    172
    Симпатии:
    46
    Вот ссылка на похожий пример
    https://a-parser.com/resources/146/
     
  6. crazypeople

    crazypeople A-Parser Pro License
    A-Parser Pro

    Регистрация:
    23 фев 2019
    Сообщения:
    17
    Симпатии:
    0
    Спасибо, помогло. Остался ещё вопрос. В результирующих файлах парсится много дублей (построчно). Если ставить "уник по строке", то парсер удаляет глобально, забирая в массив все строки из всех результирующих файлов. А нужно в каждом результирующем файле убрать дубли строк, а не глобально. Как можно реализовать на лету в задании или другим способом?
     
  7. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Нужно смотреть как и какие строки у вас выводятся и исходя из этого можно будет ответить на ваш вопрос. Пришлите ваш пресет, формирующий итоговые файлы и включите в него несколько запросов для теста.
     
  8. crazypeople

    crazypeople A-Parser Pro License
    A-Parser Pro

    Регистрация:
    23 фев 2019
    Сообщения:
    17
    Симпатии:
    0
    Пресет взят от сюда https://a-parser.com/resources/146/
    Исходя из него описываю ситуацию!
    В него я добавил регексп для выдергивания предложений и формирование результатов построчно, чтобы потом сторонним софтом убирать дубли предложений из каждого результирующего файла, что крайне не удобно. Больше я в нем ничего не менял.
    Сейчас, по умолчанию, если парсить схожие ключевые фразы, то линки (топ 10) могут совпадать. Соответственно, когда мы отдаем задание второму парсеру, целые предложения в результирующих файлах будут повторяться (имеется ввиду в разных файлах будет повторяться некоторый текст). Это логично и это не является проблемой. Но кроме этого в каждом файле повторяются сами предложения, т.к. в разных источниках (топ 10) бывает один и тот же текст. Это уже не нужно.
    На выходе я вижу почти в каждом файле кучу повторяющихся строк. И текст становится не качественным (с повторами).
    файл hello.txt
    Видим повтор первых двух строк.
    Как уже писал выше, если ставить во вотром парсере галку "уник по строке", то парсер удаляет глобально, забирая в массив все строки из всех результирующих файлов. И когда он это делает, он вырезает у всех последующих файлов вообще весь текст ), т.к. глобально ищет и находит повторы. И удалит "hello world" и "hello my world" вообще из всех файлов, кроме первого.
    А нужно в каждом результирующем файле (их может быть тысячи) убрать дубли строк, а не глобально.
     
    #48 crazypeople, 8 янв 2022
    Последнее редактирование: 8 янв 2022
  9. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Именно поэтому и нужен ваш пресет, чтобы увидеть как у вас формируется результат и ответить, можно сделать так, как вам нужно.
     

Поделиться этой страницей