Динамическое изменение имени файла результатов

Пресет Спарсить внутренние ссылки с анкорами 1.0

Доступно владельцам лицензии

aquatell

A-Parser Pro License
A-Parser Pro
Всем привет, подмогните пожалуйста с пресетом
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIkhUTUw6OkxpbmtFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9LHsi
dHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3JtYXRyZXN1bHQiLCJ2YWx1ZSI6IiRp
bnRsaW5rcy5mb3JtYXQoJyRsaW5rfHx8JGFuY2hvclxcbicpIn0seyJ0eXBlIjoi
dW5pcXVlIiwicmVzdWx0IjoicXVlcnkiLCJ1bmlxdWVUeXBlIjoic3RyaW5nIiwi
dW5pcXVlR2xvYmFsIjp0cnVlfSx7InR5cGUiOiJvcHRpb25zIiwiaWQiOiJwYXJz
ZUxldmVsIiwidmFsdWUiOjN9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3Vs
dCI6InF1ZXJ5IiwicmVnZXgiOiIiLCJyZWdleFR5cGUiOiIiLCJyZXN1bHRUeXBl
IjoiZmxhdCIsImFycmF5TmFtZSI6IiIsInJlc3VsdHMiOlsiIl19LHsidHlwZSI6
Im92ZXJyaWRlIiwiaWQiOiJmb2xsb3ciLCJ2YWx1ZSI6MH1dXSwicmVzdWx0c0Zv
cm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3Vs
dHNGaWxlTmFtZSI6InJlc3VsdHMvbmV3ZG9vcnMvVVJMc19SRVNVTFQudHh0Iiwi
YWRkaXRpb25hbEZvcm1hdHMiOltbInJlc3VsdHMvbmV3ZG9vcnMvJHtwMS5xdWVy
eS5vcmlnfS50eHQiLCIkcXVlcnlcXG4iXV0sInJlc3VsdHNVbmlxdWUiOiJubyIs
InF1ZXJ5Rm9ybWF0IjpbImh0dHA6Ly8kcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6
ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25z
Ijp7Im9uQWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3
cml0ZSI6dHJ1ZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3Jl
T3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVu
ZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJj
b25maWdPdmVycmlkZXMiOltdfX0=
Задача спарсить с 25 сайтов внутренние ссылки с анкорами, а на выходе чтобы получились 25 файлов с названиями доменов, чтобы по каждому домену ссылки с анкорами в отдельном файле были.
Парсить надо только a hrefs потому что попадают еще теги картинок, а так же надо очищать анкоры от нечитаемых символов.
Заранее благодарен.
 
Попробуйте такой вариант:
46BOX.png

Код:
eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY2Ni8iLCJ2
YWx1ZSI6eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY2
Ni8iLCJwYXJzZXJzIjpbWyJIVE1MOjpMaW5rRXh0cmFjdG9yIiwiZGVmYXVsdCIs
eyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNl
fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUi
OiIkaW50bGlua3MuZm9ybWF0KCckbGlua3x8fCRhbmNob3JcXG4nKSJ9LHsidHlw
ZSI6Im9wdGlvbnMiLCJpZCI6InBhcnNlTGV2ZWwiLCJ2YWx1ZSI6M30seyJ0eXBl
Ijoib3ZlcnJpZGUiLCJpZCI6ImZvbGxvdyIsInZhbHVlIjowfSx7InR5cGUiOiJm
aWx0ZXIiLCJyZXN1bHQiOlsiaW50bGlua3MiLCJhbmNob3IiXSwiZmlsdGVyVHlw
ZSI6Im5vdGNvbnRhaW4iLCJ2YWx1ZSI6ImltZyIsIm9wdGlvbiI6InNlbnMifV1d
LCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJm
aWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoicmVzdWx0cy9uZXdkb29ycy8ke3AxLmRv
bWFpbn0udHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVl
Ijoic3RyaW5nIiwicXVlcnlGb3JtYXQiOlsiaHR0cDovLyRxdWVyeSJdLCJ1bmlx
dWVRdWVyaWVzIjp0cnVlLCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJh
dG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNB
ZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0
ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9w
dGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQi
OiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbeyJzb3Vy
Y2UiOlswLFsiaW50bGlua3MiLCJhbmNob3IiXV0sInR5cGUiOiJyZW1vdmVIdG1s
IiwiYXJyYXkiOiJpbnRsaW5rcyIsInRvIjoiYW5jaG9yIn0seyJzb3VyY2UiOlsw
LFsiaW50bGlua3MiLCJhbmNob3IiXV0sInR5cGUiOiJkZWNvZGVIdG1sIiwiYXJy
YXkiOiJpbnRsaW5rcyIsInRvIjoiYW5jaG9yIn0seyJzb3VyY2UiOlswLCJxdWVy
eS5maXJzdCJdLCJ0eXBlIjoiZXh0cmFjdERvbWFpbiIsInRvIjoiZG9tYWluIn1d
LCJjb25maWdPdmVycmlkZXMiOltdfX0=
 
Последнее редактирование:
как в этот пресет добавить, что бы парсил с каждого сайта только 1000 ссылок?
не хочет парсить если указать ссылку с папкой site.ru/papka
 
Последнее редактирование:
как в этот пресет добавить, что бы парсил с каждого сайта только 1000 ссылок?
В данном пресете регулировать кол-во результатов можно только уровнем вложенности (Parse to level). Соответственно итоговое количество ссылок зависит от заданной глубины и кол-ва ссылок на каждом уровне.
не хочет парсить если указать ссылку с папкой site.ru/papka
Скорее всего при обращении по такому адресу сервер редиректит на site.ru/papka/
В HTML::LinkExtractor по-умолчанию отключено следование редиректам, поэтому запрос сразу попадает в неудачные. Решение: либо сразу подавать запрос со слешем в конце, либо установить параметр Max redirects count = 1 (или другое значение >0, если предполагается, что редиректов по запросу может быть больше).
 
Назад
Верх