А как быть если тысячи запросов? Вы привели пример второго парсинга, где указали спаршенные 10 ссылок в текстовом формате. А нужно сначала спарсить по тысяче ключам 10 ссылок из выдачи, а потом из этих 10 ссылок парсить текст. Я не понимаю как можно скормить второму парсеру тысячи спаршенных текстовых файлов (по 10 ссылок в каждом) и потом ещё и записать спаршенное в отдельныё шаблоны. Или как можно это объединить?
Добрый день, вам нужно использовать цепочку заданий здесь пример описан https://a-parser.com/resources/326/
А парсер то какой использовать при этом? Сейчас их два в вашем примере, и как и куда прицеплять цепочку не понятно. Пример можно?
Спасибо, помогло. Остался ещё вопрос. В результирующих файлах парсится много дублей (построчно). Если ставить "уник по строке", то парсер удаляет глобально, забирая в массив все строки из всех результирующих файлов. А нужно в каждом результирующем файле убрать дубли строк, а не глобально. Как можно реализовать на лету в задании или другим способом?
Нужно смотреть как и какие строки у вас выводятся и исходя из этого можно будет ответить на ваш вопрос. Пришлите ваш пресет, формирующий итоговые файлы и включите в него несколько запросов для теста.
Пресет взят от сюда https://a-parser.com/resources/146/ Исходя из него описываю ситуацию! В него я добавил регексп для выдергивания предложений и формирование результатов построчно, чтобы потом сторонним софтом убирать дубли предложений из каждого результирующего файла, что крайне не удобно. Больше я в нем ничего не менял. Сейчас, по умолчанию, если парсить схожие ключевые фразы, то линки (топ 10) могут совпадать. Соответственно, когда мы отдаем задание второму парсеру, целые предложения в результирующих файлах будут повторяться (имеется ввиду в разных файлах будет повторяться некоторый текст). Это логично и это не является проблемой. Но кроме этого в каждом файле повторяются сами предложения, т.к. в разных источниках (топ 10) бывает один и тот же текст. Это уже не нужно. На выходе я вижу почти в каждом файле кучу повторяющихся строк. И текст становится не качественным (с повторами). файл hello.txt Видим повтор первых двух строк. Как уже писал выше, если ставить во вотром парсере галку "уник по строке", то парсер удаляет глобально, забирая в массив все строки из всех результирующих файлов. И когда он это делает, он вырезает у всех последующих файлов вообще весь текст ), т.к. глобально ищет и находит повторы. И удалит "hello world" и "hello my world" вообще из всех файлов, кроме первого. А нужно в каждом результирующем файле (их может быть тысячи) убрать дубли строк, а не глобально.
Именно поэтому и нужен ваш пресет, чтобы увидеть как у вас формируется результат и ответить, можно сделать так, как вам нужно.