Всем привет, подмогните пожалуйста с пресетом Спойлер: Прессет eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs InBhcnNlcnMiOltbIkhUTUw6OkxpbmtFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5 cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9LHsi dHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3JtYXRyZXN1bHQiLCJ2YWx1ZSI6IiRp bnRsaW5rcy5mb3JtYXQoJyRsaW5rfHx8JGFuY2hvclxcbicpIn0seyJ0eXBlIjoi dW5pcXVlIiwicmVzdWx0IjoicXVlcnkiLCJ1bmlxdWVUeXBlIjoic3RyaW5nIiwi dW5pcXVlR2xvYmFsIjp0cnVlfSx7InR5cGUiOiJvcHRpb25zIiwiaWQiOiJwYXJz ZUxldmVsIiwidmFsdWUiOjN9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3Vs dCI6InF1ZXJ5IiwicmVnZXgiOiIiLCJyZWdleFR5cGUiOiIiLCJyZXN1bHRUeXBl IjoiZmxhdCIsImFycmF5TmFtZSI6IiIsInJlc3VsdHMiOlsiIl19LHsidHlwZSI6 Im92ZXJyaWRlIiwiaWQiOiJmb2xsb3ciLCJ2YWx1ZSI6MH1dXSwicmVzdWx0c0Zv cm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3Vs dHNGaWxlTmFtZSI6InJlc3VsdHMvbmV3ZG9vcnMvVVJMc19SRVNVTFQudHh0Iiwi YWRkaXRpb25hbEZvcm1hdHMiOltbInJlc3VsdHMvbmV3ZG9vcnMvJHtwMS5xdWVy eS5vcmlnfS50eHQiLCIkcXVlcnlcXG4iXV0sInJlc3VsdHNVbmlxdWUiOiJubyIs InF1ZXJ5Rm9ybWF0IjpbImh0dHA6Ly8kcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6 ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25z Ijp7Im9uQWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3 cml0ZSI6dHJ1ZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3Jl T3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVu ZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJj b25maWdPdmVycmlkZXMiOltdfX0= Задача спарсить с 25 сайтов внутренние ссылки с анкорами, а на выходе чтобы получились 25 файлов с названиями доменов, чтобы по каждому домену ссылки с анкорами в отдельном файле были. Парсить надо только a hrefs потому что попадают еще теги картинок, а так же надо очищать анкоры от нечитаемых символов. Заранее благодарен.
Попробуйте такой вариант: Спойлер: Пресет Код: eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY2Ni8iLCJ2 YWx1ZSI6eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY2 Ni8iLCJwYXJzZXJzIjpbWyJIVE1MOjpMaW5rRXh0cmFjdG9yIiwiZGVmYXVsdCIs eyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNl fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUi OiIkaW50bGlua3MuZm9ybWF0KCckbGlua3x8fCRhbmNob3JcXG4nKSJ9LHsidHlw ZSI6Im9wdGlvbnMiLCJpZCI6InBhcnNlTGV2ZWwiLCJ2YWx1ZSI6M30seyJ0eXBl Ijoib3ZlcnJpZGUiLCJpZCI6ImZvbGxvdyIsInZhbHVlIjowfSx7InR5cGUiOiJm aWx0ZXIiLCJyZXN1bHQiOlsiaW50bGlua3MiLCJhbmNob3IiXSwiZmlsdGVyVHlw ZSI6Im5vdGNvbnRhaW4iLCJ2YWx1ZSI6ImltZyIsIm9wdGlvbiI6InNlbnMifV1d LCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJm aWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoicmVzdWx0cy9uZXdkb29ycy8ke3AxLmRv bWFpbn0udHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVl Ijoic3RyaW5nIiwicXVlcnlGb3JtYXQiOlsiaHR0cDovLyRxdWVyeSJdLCJ1bmlx dWVRdWVyaWVzIjp0cnVlLCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJh dG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNB ZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0 ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9w dGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQi OiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbeyJzb3Vy Y2UiOlswLFsiaW50bGlua3MiLCJhbmNob3IiXV0sInR5cGUiOiJyZW1vdmVIdG1s IiwiYXJyYXkiOiJpbnRsaW5rcyIsInRvIjoiYW5jaG9yIn0seyJzb3VyY2UiOlsw LFsiaW50bGlua3MiLCJhbmNob3IiXV0sInR5cGUiOiJkZWNvZGVIdG1sIiwiYXJy YXkiOiJpbnRsaW5rcyIsInRvIjoiYW5jaG9yIn0seyJzb3VyY2UiOlswLCJxdWVy eS5maXJzdCJdLCJ0eXBlIjoiZXh0cmFjdERvbWFpbiIsInRvIjoiZG9tYWluIn1d LCJjb25maWdPdmVycmlkZXMiOltdfX0=
как в этот пресет добавить, что бы парсил с каждого сайта только 1000 ссылок? не хочет парсить если указать ссылку с папкой site.ru/papka
В данном пресете регулировать кол-во результатов можно только уровнем вложенности (Parse to level). Соответственно итоговое количество ссылок зависит от заданной глубины и кол-ва ссылок на каждом уровне. Скорее всего при обращении по такому адресу сервер редиректит на site.ru/papka/ В HTML::LinkExtractor по-умолчанию отключено следование редиректам, поэтому запрос сразу попадает в неудачные. Решение: либо сразу подавать запрос со слешем в конце, либо установить параметр Max redirects count = 1 (или другое значение >0, если предполагается, что редиректов по запросу может быть больше).