Всем привет, подмогните пожалуйста с пресетом
Задача спарсить с 25 сайтов внутренние ссылки с анкорами, а на выходе чтобы получились 25 файлов с названиями доменов, чтобы по каждому домену ссылки с анкорами в отдельном файле были.
Парсить надо только a hrefs потому что попадают еще теги картинок, а так же надо очищать анкоры от нечитаемых символов.
Заранее благодарен.
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIkhUTUw6OkxpbmtFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9LHsi
dHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3JtYXRyZXN1bHQiLCJ2YWx1ZSI6IiRp
bnRsaW5rcy5mb3JtYXQoJyRsaW5rfHx8JGFuY2hvclxcbicpIn0seyJ0eXBlIjoi
dW5pcXVlIiwicmVzdWx0IjoicXVlcnkiLCJ1bmlxdWVUeXBlIjoic3RyaW5nIiwi
dW5pcXVlR2xvYmFsIjp0cnVlfSx7InR5cGUiOiJvcHRpb25zIiwiaWQiOiJwYXJz
ZUxldmVsIiwidmFsdWUiOjN9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3Vs
dCI6InF1ZXJ5IiwicmVnZXgiOiIiLCJyZWdleFR5cGUiOiIiLCJyZXN1bHRUeXBl
IjoiZmxhdCIsImFycmF5TmFtZSI6IiIsInJlc3VsdHMiOlsiIl19LHsidHlwZSI6
Im92ZXJyaWRlIiwiaWQiOiJmb2xsb3ciLCJ2YWx1ZSI6MH1dXSwicmVzdWx0c0Zv
cm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3Vs
dHNGaWxlTmFtZSI6InJlc3VsdHMvbmV3ZG9vcnMvVVJMc19SRVNVTFQudHh0Iiwi
YWRkaXRpb25hbEZvcm1hdHMiOltbInJlc3VsdHMvbmV3ZG9vcnMvJHtwMS5xdWVy
eS5vcmlnfS50eHQiLCIkcXVlcnlcXG4iXV0sInJlc3VsdHNVbmlxdWUiOiJubyIs
InF1ZXJ5Rm9ybWF0IjpbImh0dHA6Ly8kcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6
ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25z
Ijp7Im9uQWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3
cml0ZSI6dHJ1ZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3Jl
T3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVu
ZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJj
b25maWdPdmVycmlkZXMiOltdfX0=
InBhcnNlcnMiOltbIkhUTUw6OkxpbmtFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9LHsi
dHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3JtYXRyZXN1bHQiLCJ2YWx1ZSI6IiRp
bnRsaW5rcy5mb3JtYXQoJyRsaW5rfHx8JGFuY2hvclxcbicpIn0seyJ0eXBlIjoi
dW5pcXVlIiwicmVzdWx0IjoicXVlcnkiLCJ1bmlxdWVUeXBlIjoic3RyaW5nIiwi
dW5pcXVlR2xvYmFsIjp0cnVlfSx7InR5cGUiOiJvcHRpb25zIiwiaWQiOiJwYXJz
ZUxldmVsIiwidmFsdWUiOjN9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3Vs
dCI6InF1ZXJ5IiwicmVnZXgiOiIiLCJyZWdleFR5cGUiOiIiLCJyZXN1bHRUeXBl
IjoiZmxhdCIsImFycmF5TmFtZSI6IiIsInJlc3VsdHMiOlsiIl19LHsidHlwZSI6
Im92ZXJyaWRlIiwiaWQiOiJmb2xsb3ciLCJ2YWx1ZSI6MH1dXSwicmVzdWx0c0Zv
cm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3Vs
dHNGaWxlTmFtZSI6InJlc3VsdHMvbmV3ZG9vcnMvVVJMc19SRVNVTFQudHh0Iiwi
YWRkaXRpb25hbEZvcm1hdHMiOltbInJlc3VsdHMvbmV3ZG9vcnMvJHtwMS5xdWVy
eS5vcmlnfS50eHQiLCIkcXVlcnlcXG4iXV0sInJlc3VsdHNVbmlxdWUiOiJubyIs
InF1ZXJ5Rm9ybWF0IjpbImh0dHA6Ly8kcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6
ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25z
Ijp7Im9uQWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3
cml0ZSI6dHJ1ZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3Jl
T3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVu
ZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJj
b25maWdPdmVycmlkZXMiOltdfX0=
Парсить надо только a hrefs потому что попадают еще теги картинок, а так же надо очищать анкоры от нечитаемых символов.
Заранее благодарен.