1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

HTML::ArticleExtractor не извлекает все атрибуты тегов

Тема в разделе "Техническая поддержка лицензии Enterprise", создана пользователем Igor4324, 14 сен 2022.

  1. Igor4324

    Igor4324 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    23 дек 2021
    Сообщения:
    3
    Симпатии:
    0
    Вот настройка с тестовым запросом:
    eyJwcmVzZXQiOiJcdTA0MWZcdTA0MzBcdTA0NDBcdTA0NDFcdTA0MzhcdTA0M2Rc
    dTA0MzMgXHUwNDQxXHUwNDQyXHUwNDMwXHUwNDQyXHUwNDRjXHUwNDM4IiwidmFs
    dWUiOnsicHJlc2V0IjoiXHUwNDFmXHUwNDMwXHUwNDQwXHUwNDQxXHUwNDM4XHUw
    NDNkXHUwNDMzIFx1MDQ0MVx1MDQ0Mlx1MDQzMFx1MDQ0Mlx1MDQ0Y1x1MDQzOCIs
    InBhcnNlcnMiOltbIkhUTUw6OkFydGljbGVFeHRyYWN0b3IiLCJkZWZhdWx0Iix7
    InR5cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9
    LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJnb29kQ29kZSIsInZhbHVlIjpbIiJd
    fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoibWV0aG9kIiwidmFsdWUiOiJHRVQi
    fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoidXNlci1hZ2VudCIsInZhbHVlIjoi
    TW96aWxsYS80LjAgKGNvbXBhdGlibGU7IE1TSUUgNi4wOyBXaW5kb3dzIE5UIDUu
    MTsgU1YxKSJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJicm93c2VyIiwidmFs
    dWUiOnRydWV9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJodHRwMiIsInZhbHVl
    Ijp0cnVlfV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNT
    YXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1h
    dCgpLnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6
    Im5vIiwicXVlcmllc0Zyb20iOiJ0ZXh0IiwicXVlcnlGb3JtYXQiOlsiJHF1ZXJ5
    Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFs
    c2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5
    QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwicXVlcnlCdWlsZGVyc09uQWxs
    TGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6ZmFs
    c2UsIndyaXRlQk9NIjpmYWxzZX0sImRvTG9nIjoibm8iLCJsaW1pdExvZ3NDb3Vu
    dCI6IjAiLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJl
    c3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRl
    cnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltd
    LCJydW5UYXNrT25Db21wbGV0ZSI6bnVsbCwidXNlUmVzdWx0c0ZpbGVBc1F1ZXJp
    ZXNGaWxlIjpmYWxzZSwicnVuVGFza09uQ29tcGxldGVDb25maWciOiJkZWZhdWx0
    IiwidG9vbHNKUyI6IiIsInByaW8iOjUsInJlbW92ZU9uQ29tcGxldGUiOmZhbHNl
    LCJjYWxsVVJMT25Db21wbGV0ZSI6IiIsInF1ZXJpZXMiOiJodHRwczovL3d3dy5p
    Z3JvbWFuaWEucnUvZ2FtZS8xOTg2L0hhbGYtTGlmZV8yLmh0bWwiLCJjYXRlZ29y
    eSI6W119fQ==


    В результате парсинга нет некоторых атрибутов в тегах. Например в конкретном случает атрибута: class="game-data".
    Каким образом можно сделать парсинг всех атрибутов в парсере HTML::ArticleExtractor?
     
  2. Support Alex

    Support Alex Moderator
    Команда форума A-Parser Enterprise

    Регистрация:
    1 окт 2019
    Сообщения:
    274
    Симпатии:
    50
    HTML::ArticleExtractor работает с помощью модуля @mozilla/readability, который встроен в А-Парсер и собирает такие основные данные как: заглавие, контент с HTML версткой и без, длину статьи.

    Вполне возможно, что данный модуль удаляет некоторые части кода исходя из своего алгоритма.

    Если вам нужен атрибут class="game-data", то вы можете использовать переменную $data, в таком случае будет весь код страницы, и с него вы можете регулярками получать нужную вам информацию.
     
  3. Ev888

    Ev888 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    24 янв 2023
    Сообщения:
    1
    Симпатии:
    0
    Да это большая проблема. Хочется большего контроля над readability.
    Мало того что он удаляет нужные тэги, так он ещё добавляет свои, ненужные.
    Например:
    Код:
    <div id="readability-page-1" class="page"><div>
     

Поделиться этой страницей