день добрый. например есть две ссылки: первый дор с статусом 200, рекдиректом в мета теге. https://blog.testby.com.br/usmc_mci_0119h_punctuation.pdf второй pdf файл (тоже дор но не в этом суть) http://jikjik.ir/usmc-mci-answers-0119h-punctuation.pdf Нужно отфильтровать ссылку с pdf файлом от дора с редиректом. По статусе нельзя у обоих 200. нашел разницу в content-type: но не получается реализовать. Если можно с примером покажите.
Здравствуйте 1. возможно ли передача данных между парсерами в рамках одного задания? 2. возможно ли установить минимальный размер файла, как и макс размер в Net::Http?
Добрый день. В рамках обычного пресета нельзя. Но можно воспользоваться функционалом JS парсеров и прописать практически любую логику, обращаясь к стандартным парсерам. Max body size ограничивает размер получаемого контента, и если страница имеет больший обьем, чем указано в настройках, то парсер получить только часть страницы до указанного размера. А как должен работать минимальный обьем?
например качаю пдф файлы, основном пдф файлы ниже 100КБ доры одностранички https://storage.googleapis.com/deimosbrock.appspot.com/1026-recetas-de-cocina-internacional-le-cordon-bleu-8489396469.pdf чтобы не фильтровать руками ниже 100КБ файлы, хочу указать во время парса.