фильтрация по header

  • Автор темы Автор темы zbest
  • Дата начала Дата начала

zbest

A-Parser Enterprise License
A-Parser Enterprise
день добрый.
например есть две ссылки:

первый дор с статусом 200, рекдиректом в мета теге. https://blog.testby.com.br/usmc_mci_0119h_punctuation.pdf

второй pdf файл (тоже дор но не в этом суть) http://jikjik.ir/usmc-mci-answers-0119h-punctuation.pdf

Нужно отфильтровать ссылку с pdf файлом от дора с редиректом. По статусе нельзя у обоих 200.
нашел разницу в content-type:

Screenshot_1.jpg

но не получается реализовать. Если можно с примером покажите.
 
Здравствуйте
1. возможно ли передача данных между парсерами в рамках одного задания?
2. возможно ли установить минимальный размер файла, как и макс размер в Net::Http?

Screenshot_1.jpg
 
Последнее редактирование:
Добрый день.
1. возможно ли передача данных между парсерами в рамках одного задания?
В рамках обычного пресета нельзя. Но можно воспользоваться функционалом JS парсеров и прописать практически любую логику, обращаясь к стандартным парсерам.
2. возможно ли установить минимальный размер файла, как и макс размер в Net::Http?
Max body size ограничивает размер получаемого контента, и если страница имеет больший обьем, чем указано в настройках, то парсер получить только часть страницы до указанного размера. А как должен работать минимальный обьем?
 
Добрый день.

В рамках обычного пресета нельзя. Но можно воспользоваться функционалом JS парсеров и прописать практически любую логику, обращаясь к стандартным парсерам.

Max body size ограничивает размер получаемого контента, и если страница имеет больший обьем, чем указано в настройках, то парсер получить только часть страницы до указанного размера. А как должен работать минимальный обьем?

например качаю пдф файлы, основном пдф файлы ниже 100КБ доры одностранички https://storage.googleapis.com/deimosbrock.appspot.com/1026-recetas-de-cocina-internacional-le-cordon-bleu-8489396469.pdf
чтобы не фильтровать руками ниже 100КБ файлы, хочу указать во время парса.
 
Используйте фильтры, например так:
l4v6g_181001125748.png
 
Назад
Верх