Вот настройка с тестовым запросом: eyJwcmVzZXQiOiJcdTA0MWZcdTA0MzBcdTA0NDBcdTA0NDFcdTA0MzhcdTA0M2Rc dTA0MzMgXHUwNDQxXHUwNDQyXHUwNDMwXHUwNDQyXHUwNDRjXHUwNDM4IiwidmFs dWUiOnsicHJlc2V0IjoiXHUwNDFmXHUwNDMwXHUwNDQwXHUwNDQxXHUwNDM4XHUw NDNkXHUwNDMzIFx1MDQ0MVx1MDQ0Mlx1MDQzMFx1MDQ0Mlx1MDQ0Y1x1MDQzOCIs InBhcnNlcnMiOltbIkhUTUw6OkFydGljbGVFeHRyYWN0b3IiLCJkZWZhdWx0Iix7 InR5cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9 LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJnb29kQ29kZSIsInZhbHVlIjpbIiJd fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoibWV0aG9kIiwidmFsdWUiOiJHRVQi fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoidXNlci1hZ2VudCIsInZhbHVlIjoi TW96aWxsYS80LjAgKGNvbXBhdGlibGU7IE1TSUUgNi4wOyBXaW5kb3dzIE5UIDUu MTsgU1YxKSJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJicm93c2VyIiwidmFs dWUiOnRydWV9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJodHRwMiIsInZhbHVl Ijp0cnVlfV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNT YXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1h dCgpLnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6 Im5vIiwicXVlcmllc0Zyb20iOiJ0ZXh0IiwicXVlcnlGb3JtYXQiOlsiJHF1ZXJ5 Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFs c2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5 QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwicXVlcnlCdWlsZGVyc09uQWxs TGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6ZmFs c2UsIndyaXRlQk9NIjpmYWxzZX0sImRvTG9nIjoibm8iLCJsaW1pdExvZ3NDb3Vu dCI6IjAiLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJl c3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRl cnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltd LCJydW5UYXNrT25Db21wbGV0ZSI6bnVsbCwidXNlUmVzdWx0c0ZpbGVBc1F1ZXJp ZXNGaWxlIjpmYWxzZSwicnVuVGFza09uQ29tcGxldGVDb25maWciOiJkZWZhdWx0 IiwidG9vbHNKUyI6IiIsInByaW8iOjUsInJlbW92ZU9uQ29tcGxldGUiOmZhbHNl LCJjYWxsVVJMT25Db21wbGV0ZSI6IiIsInF1ZXJpZXMiOiJodHRwczovL3d3dy5p Z3JvbWFuaWEucnUvZ2FtZS8xOTg2L0hhbGYtTGlmZV8yLmh0bWwiLCJjYXRlZ29y eSI6W119fQ== В результате парсинга нет некоторых атрибутов в тегах. Например в конкретном случает атрибута: class="game-data". Каким образом можно сделать парсинг всех атрибутов в парсере HTML::ArticleExtractor?
HTML::ArticleExtractor работает с помощью модуля @mozilla/readability, который встроен в А-Парсер и собирает такие основные данные как: заглавие, контент с HTML версткой и без, длину статьи. Вполне возможно, что данный модуль удаляет некоторые части кода исходя из своего алгоритма. Если вам нужен атрибут class="game-data", то вы можете использовать переменную $data, в таком случае будет весь код страницы, и с него вы можете регулярками получать нужную вам информацию.
Да это большая проблема. Хочется большего контроля над readability. Мало того что он удаляет нужные тэги, так он ещё добавляет свои, ненужные. Например: Код: <div id="readability-page-1" class="page"><div>