Буду благодарен, если подскажите, как ограничить количество внутренних ссылок при парсинге с одного домена пауком (HTML::LinkExtractor). Т.е. мне нужно, чтобы паук парсил максимум по 500 внутренник ссылок с домена. Заранее благодарен!
а "костыль" можно реализовать спомощью апарсера, теоретически, можно? или тут без вариантов и нужно привлекать сторонний софт? или может платная поддержка решит этот вопрос?
=) тогда подскажите пожалуйста, как я могу сохранять скрауленые линки со всех доменов не в один файл, а с каждого домена в отдельный файл чтобы файл был назван названием домена и в нем были только линки с этого домена* заранее спасибо
Используйте Конструктор запросов для извлечения домена и используйте полученное значение в имени файла. Спойлер: Пример Код: eJxtU01v2zAM/S9EjkGAHnrxLe0WbIVbd216CnoQbDrQIouqJGctDP/3kbJju0Vv 4tfjIx/VQVThFB49BowBskMHLr0hgwpr1ZoIa3DKB/QSPsCv/X2eZbm2p5/v0asy kueMKbeD+OGQq8lFTTZwTFdsJogcz2jYc1am5Zzr/vV1DdyOK8OOfKOk7cpdbUYO U/BZnXFPHKy1wdm9Y+tBNdJu1b216D82FTVK234T36VcVZUWGsoM8DLC3PLF6jfh AZY4V+o1hp2nhl0RE0ACvVA7wCrZwBBtqv0z1EBWKxNwDYF57hSzqr5GdESveFfF uJasA7JbY9JK5rSEf9NqU/G+tzUX/R4Lv08plhjRt9hP0y07ndH/80xhAknWTXE/ OriqopyOl12cEN20nQfxNORxQhxBxkZ8PA6tiDwrs3Wz6xPhdGKBWl8K9LDO9eVm cLioPbkfSUaJiOqDqNDP0i3g2FmSrfWx4Cm9rvAicmv3fNuFvaXGGZThbWsMSxfw ab6fbRilEmMe7WvxbWrx6VdEIhPunochndfM9FoINrzuZdcRslTGvDzlywjMZzcY pYp4JF4JTyDTjh9v+p7dt98v63oW8G94HLJlEMllH28ksGSQXfX/AQV4YiE=
Что краулер с таким запросом не хочет краулить: Спойлер: пример eyJwcmVzZXQiOiJcdTA0MWZcdTA0MTBcdTA0MjNcdTA0MWEiLCJ2YWx1ZSI6eyJw cmVzZXQiOiJcdTA0MWZcdTA0MTBcdTA0MjNcdTA0MWEiLCJwYXJzZXJzIjpbWyJI VE1MOjpMaW5rRXh0cmFjdG9yIiwiZGVmYXVsdCIseyJ0eXBlIjoib3B0aW9ucyIs ImlkIjoicGFyc2VMZXZlbCIsInZhbHVlIjoyfSx7InR5cGUiOiJvdmVycmlkZSIs ImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiIkaW50bGlua3MuZm9ybWF0KCck bGlua1xcbicpIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6ImZvbGxvdyIsInZh bHVlIjowfV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNT YXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoic3BpZGVyLyR7cXVlcnku ZG9tYWlufS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlx dWUiOiJzdHJpbmciLCJxdWVyaWVzRnJvbSI6InRleHQiLCJxdWVyeUZvcm1hdCI6 WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVy aWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxz ZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1aWxk ZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMiOnsib3Zlcndy aXRlIjpmYWxzZSwid3JpdGVCT00iOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBV bmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQi OiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W3sic291cmNl IjoicXVlcnkiLCJ0eXBlIjoiZXh0cmFjdFRvcERvbWFpbiIsInRvIjoicXVlcnki fV0sInJlc3VsdHNCdWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W10sInJ1 blRhc2tPbkNvbXBsZXRlIjpudWxsLCJ1c2VSZXN1bHRzRmlsZUFzUXVlcmllc0Zp bGUiOmZhbHNlLCJydW5UYXNrT25Db21wbGV0ZUNvbmZpZyI6ImRlZmF1bHQiLCJ0 b29sc0pTIjoiIiwicHJpbyI6NSwicmVtb3ZlT25Db21wbGV0ZSI6ZmFsc2UsImNh bGxVUkxPbkNvbXBsZXRlIjoiIiwicXVlcmllcyI6InN0dWR5bGliLmVzXG51Y2hp Y2Fnby5lZHVcbnJodXRobW9zLmV1XG5kaXppb25hcmlvLWxhdGluby5jb21cbmxl bnppbmMuY29tXG5pbmRpYW5hLmVkdVxuZHJvcHBkZi5jb20iLCJjYXRlZ29yeSI6 W119fQ==
Вы Конструктором запросов извлекаете домен и помещаете его в переменную $query Поэтому ссылка все так же без протокола