1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Как сохранить ссылки на такие страницы?

Тема в разделе "Делимся опытом", создана пользователем Сергей 222, 14 фев 2023.

  1. Сергей 222

    Сергей 222 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 окт 2018
    Сообщения:
    32
    Симпатии:
    1
    С помощью HTML linkExtractor https://a-parser.com/docs/parsers/html-linkextractor

    нужно проходить по ссылкам (есть список сайтов, главные страницы), как внутренним, так и внешним,
    парсить до уровня 3
    и сохранять ссылки в txt файл (или множество файлов) в папку results

    Но сохранять только ссылки на те страницы, в тексте которых содержится одно из слов списка "слова".

    Можно ли такое реализовать?


    Посмотрел описание фильтрации https://a-parser.com/docs/guides/task-settings/results-filters
    но там идет использование https://a-parser.com/docs/parsers/net-http

    В итоге немного запутался. Помогите, как это сделать.

    Спасибо.
     
  2. Support Alex

    Support Alex Moderator
    Команда форума A-Parser Enterprise

    Регистрация:
    1 окт 2019
    Сообщения:
    307
    Симпатии:
    62
    Добрый день, порядок парсинга будет такой:
    1) парсите ссылки используя HTML::LinkExtractor
    2) проверяете страницы, которые спарсили на наличие слов используя Net::HTTP
     
  3. Сергей 222

    Сергей 222 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 окт 2018
    Сообщения:
    32
    Симпатии:
    1
    Спасибо. В одном задании это реализуется путем очередности парсеров, верно? Или нужно выполнять в два разных задания друг за другом.
     
  4. Support Alex

    Support Alex Moderator
    Команда форума A-Parser Enterprise

    Регистрация:
    1 окт 2019
    Сообщения:
    307
    Симпатии:
    62
    используйте запуск второго задания по завершению первого - https://a-parser.com/docs/guides/task-settings/additional-options-of-task-editor#run-on-complete. В одном задании это можно реализовать при помощи JS парсера описав в нем соответствующую логику - https://a-parser.com/docs/javascript-parsers/overview
     

Поделиться этой страницей