Иногда возникает необходимость спарсить категории из интернет-магазинов, сохранив при этом их структуру и путь к подкатегории. Ниже показан такой парсинг на примере Яндекс.Маркета. Для упрощения задания используется мобильная версия m.market.yandex.ru.
Примечание: для данного пресета необходима версия А-Парсера 1.1.292 и выше.
Логика заключается в следующем. На первом шаге парсятся ссылки на основные категории и их названия. Ссылки вместе с путем к ним выводятся в результат и подставляются в запросы для следующего шага. На втором шаге запрос разделяется на ссылку и путь к ней. По ссылке делается запрос, парсятся ссылки на категории и их названия. Все это опять выводится в результат и подставляется в запросы на следующий шаг. При этом проверяется уникализация запросов и результатов. И так до тех пор, пока есть новые, уникальные категории. В итоге имеем полный перечень категорий и путей к ним.
Результат:
Примечание: для данного пресета необходима версия А-Парсера 1.1.292 и выше.
Код:
eyJwcmVzZXQiOiJDYXQgWWFuZGV4Lk1hcmtldCIsInZhbHVlIjp7InByZXNldCI6
IkNhdCBZYW5kZXguTWFya2V0IiwicGFyc2VycyI6W1siTmV0OjpIVFRQIiwiZGVm
YXVsdCIseyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZh
bHVlIjoiWyUgRk9SRUFDSCBpIElOIGludGxpbmtzO1xucyA9IFwiXFx0XCI7XG5z
LnJlcGVhdChxdWVyeS5sdmwpXyBxdWVyeS5wYXRoIF9cIiA+IFwiXyBpLmFuY2hv
ciBfXCI6IGh0dHA6Ly9tLm1hcmtldC55YW5kZXgucnVcIl8gaS5saW5rIF9cIlxc
blwiO1xuRU5EICVdIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InF1ZXJ5Zm9y
bWF0IiwidmFsdWUiOiIkcXVlcnkubGluayJ9LHsidHlwZSI6Im92ZXJyaWRlIiwi
aWQiOiJnb29kQ29kZSIsInZhbHVlIjoyMDB9LHsidHlwZSI6Im9wdGlvbnMiLCJp
ZCI6ImNoZWNrQ29udGVudCIsInZhbHVlIjoiXHUwNDJmXHUwNDNkXHUwNDM0XHUw
NDM1XHUwNDNhXHUwNDQxXFwuXHUwNDFjXHUwNDMwXHUwNDQwXHUwNDNhXHUwNDM1
XHUwNDQyPFxcL3RpdGxlPiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJwcm94
eXJldHJpZXMiLCJ2YWx1ZSI6IjEwMCJ9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIs
InJlc3VsdCI6ImRhdGEiLCJyZWdleCI6IjxoMSBjbGFzcz1cImItdGl0bGVcIj4o
Lis/KSg/Olx1MDQyMVx1MDQzY1x1MDQzNVx1MDQzNlx1MDQzZFx1MDQ0Ylx1MDQz
NSBcdTA0M2FcdTA0MzBcdTA0NDJcdTA0MzVcdTA0MzNcdTA0M2VcdTA0NDBcdTA0
MzhcdTA0Mzh8aHRtbCkiLCJyZWdleFR5cGUiOiIiLCJyZXN1bHRUeXBlIjoiZmxh
dCIsImFycmF5TmFtZSI6IiIsInJlc3VsdHMiOlsic291cmNlIl19LHsidHlwZSI6
ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6InNvdXJjZSIsInJlZ2V4IjoiYi1zdWJ0
aXRsZVwiPjxhIGhyZWY9XCIoXFwvY2F0YWxvZ1xcLnhtbFxcP2hpZD1cXGQrKVwi
PiguKz8pPCIsInJlZ2V4VHlwZSI6ImciLCJyZXN1bHRUeXBlIjoiYXJyYXkiLCJh
cnJheU5hbWUiOiJpbnRsaW5rcyIsInJlc3VsdHMiOlsibGluayIsImFuY2hvciJd
fSx7InR5cGUiOiJ1bmlxdWUiLCJyZXN1bHQiOlsiaW50bGlua3MiLCJsaW5rIl0s
InVuaXF1ZVR5cGUiOiJzdHJpbmciLCJ1bmlxdWVHbG9iYWwiOnRydWV9XV0sInJl
c3VsdHNGb3JtYXQiOiJbJSBGT1JFQUNIIGkgSU4gcDEuaW50bGlua3M7XG50b29s
cy5xdWVyeS5hZGQoXCJodHRwOi8vbS5tYXJrZXQueWFuZGV4LnJ1XCJfIGkubGlu
ayBfXCJ8XCJfIHF1ZXJ5LnBhdGggX1wiID4gXCJfIGkuYW5jaG9yKTtcbkVORCAl
XSRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxl
TmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0
cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVy
eXxcdTA0MTNcdTA0M2JcdTA0MzBcdTA0MzJcdTA0M2RcdTA0MzBcdTA0NGYiXSwi
dW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwi
aXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxzZSwicXVlcnlCdWls
ZGVyc0FmdGVySXRlcmF0b3IiOnRydWUsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVs
cyI6dHJ1ZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJk
b0xvZyI6ImRiIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNl
LCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1
aWxkZXJzIjpbeyJzb3VyY2UiOiJxdWVyeSIsInR5cGUiOiJzdHJpbmdTcGxpdCIs
InNlcGFyYXRvciI6InwiLCJ0byI6WyJsaW5rIiwicGF0aCJdfV0sInJlc3VsdHNC
dWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119fQ==
Результат: