Как ограничить количество ссылок с одного домена в HTML::LinkExtractor

  • Автор темы Автор темы Focus17
  • Дата начала Дата начала

Focus17

A-Parser Pro License
A-Parser Pro
Буду благодарен, если подскажите, как ограничить количество внутренних ссылок при парсинге с одного домена пауком (HTML::LinkExtractor).

Т.е. мне нужно, чтобы паук парсил максимум по 500 внутренник ссылок с домена.

Заранее благодарен!
 
Такой возможности нету, можно регулировать только глубину парсинга
 
а "костыль" можно реализовать спомощью апарсера, теоретически, можно?
или тут без вариантов и нужно привлекать сторонний софт?

или может платная поддержка решит этот вопрос?
 
"Костыли" не делаем) Поэтому скорее всего А-Парсером это не сделать.
 
=)

тогда подскажите пожалуйста, как я могу сохранять скрауленые линки со всех доменов не в один файл, а с каждого домена в отдельный файл
чтобы файл был назван названием домена и в нем были только линки с этого домена*

заранее спасибо
 
Используйте Конструктор запросов для извлечения домена и используйте полученное значение в имени файла.
Код:
eJxtU01v2zAM/S9EjkGAHnrxLe0WbIVbd216CnoQbDrQIouqJGctDP/3kbJju0Vv
4tfjIx/VQVThFB49BowBskMHLr0hgwpr1ZoIa3DKB/QSPsCv/X2eZbm2p5/v0asy
kueMKbeD+OGQq8lFTTZwTFdsJogcz2jYc1am5Zzr/vV1DdyOK8OOfKOk7cpdbUYO
U/BZnXFPHKy1wdm9Y+tBNdJu1b216D82FTVK234T36VcVZUWGsoM8DLC3PLF6jfh
AZY4V+o1hp2nhl0RE0ACvVA7wCrZwBBtqv0z1EBWKxNwDYF57hSzqr5GdESveFfF
uJasA7JbY9JK5rSEf9NqU/G+tzUX/R4Lv08plhjRt9hP0y07ndH/80xhAknWTXE/
OriqopyOl12cEN20nQfxNORxQhxBxkZ8PA6tiDwrs3Wz6xPhdGKBWl8K9LDO9eVm
cLioPbkfSUaJiOqDqNDP0i3g2FmSrfWx4Cm9rvAicmv3fNuFvaXGGZThbWsMSxfw
ab6fbRilEmMe7WvxbWrx6VdEIhPunochndfM9FoINrzuZdcRslTGvDzlywjMZzcY
pYp4JF4JTyDTjh9v+p7dt98v63oW8G94HLJlEMllH28ksGSQXfX/AQV4YiE=
 
Что краулер с таким запросом не хочет краулить:
eyJwcmVzZXQiOiJcdTA0MWZcdTA0MTBcdTA0MjNcdTA0MWEiLCJ2YWx1ZSI6eyJw
cmVzZXQiOiJcdTA0MWZcdTA0MTBcdTA0MjNcdTA0MWEiLCJwYXJzZXJzIjpbWyJI
VE1MOjpMaW5rRXh0cmFjdG9yIiwiZGVmYXVsdCIseyJ0eXBlIjoib3B0aW9ucyIs
ImlkIjoicGFyc2VMZXZlbCIsInZhbHVlIjoyfSx7InR5cGUiOiJvdmVycmlkZSIs
ImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiIkaW50bGlua3MuZm9ybWF0KCck
bGlua1xcbicpIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6ImZvbGxvdyIsInZh
bHVlIjowfV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNT
YXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoic3BpZGVyLyR7cXVlcnku
ZG9tYWlufS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlx
dWUiOiJzdHJpbmciLCJxdWVyaWVzRnJvbSI6InRleHQiLCJxdWVyeUZvcm1hdCI6
WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVy
aWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxz
ZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1aWxk
ZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMiOnsib3Zlcndy
aXRlIjpmYWxzZSwid3JpdGVCT00iOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBV
bmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQi
OiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W3sic291cmNl
IjoicXVlcnkiLCJ0eXBlIjoiZXh0cmFjdFRvcERvbWFpbiIsInRvIjoicXVlcnki
fV0sInJlc3VsdHNCdWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W10sInJ1
blRhc2tPbkNvbXBsZXRlIjpudWxsLCJ1c2VSZXN1bHRzRmlsZUFzUXVlcmllc0Zp
bGUiOmZhbHNlLCJydW5UYXNrT25Db21wbGV0ZUNvbmZpZyI6ImRlZmF1bHQiLCJ0
b29sc0pTIjoiIiwicHJpbyI6NSwicmVtb3ZlT25Db21wbGV0ZSI6ZmFsc2UsImNh
bGxVUkxPbkNvbXBsZXRlIjoiIiwicXVlcmllcyI6InN0dWR5bGliLmVzXG51Y2hp
Y2Fnby5lZHVcbnJodXRobW9zLmV1XG5kaXppb25hcmlvLWxhdGluby5jb21cbmxl
bnppbmMuY29tXG5pbmRpYW5hLmVkdVxuZHJvcHBkZi5jb20iLCJjYXRlZ29yeSI6
W119fQ==
 
Ссылки должны быть с протоколом (http/https)
 
Вы Конструктором запросов извлекаете домен и помещаете его в переменную $query
Поэтому ссылка все так же без протокола
 
Т.е. мне извлекать домен и помещать его в переменную в самый последний момент?
 
Просто в другую переменную. А вообще, выше есть готовый пример.
 
Назад
Верх