1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Как ограничить количество ссылок с одного домена в HTML::LinkExtractor

Тема в разделе "Техническая поддержка", создана пользователем Focus17, 8 май 2019.

  1. Focus17

    Focus17 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 апр 2019
    Сообщения:
    6
    Симпатии:
    0
    Буду благодарен, если подскажите, как ограничить количество внутренних ссылок при парсинге с одного домена пауком (HTML::LinkExtractor).

    Т.е. мне нужно, чтобы паук парсил максимум по 500 внутренник ссылок с домена.

    Заранее благодарен!
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.546
    Симпатии:
    2.163
    Такой возможности нету, можно регулировать только глубину парсинга
     
  3. Focus17

    Focus17 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 апр 2019
    Сообщения:
    6
    Симпатии:
    0
    а "костыль" можно реализовать спомощью апарсера, теоретически, можно?
    или тут без вариантов и нужно привлекать сторонний софт?

    или может платная поддержка решит этот вопрос?
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.546
    Симпатии:
    2.163
    "Костыли" не делаем) Поэтому скорее всего А-Парсером это не сделать.
     
  5. Focus17

    Focus17 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 апр 2019
    Сообщения:
    6
    Симпатии:
    0
    =)

    тогда подскажите пожалуйста, как я могу сохранять скрауленые линки со всех доменов не в один файл, а с каждого домена в отдельный файл
    чтобы файл был назван названием домена и в нем были только линки с этого домена*

    заранее спасибо
     
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.546
    Симпатии:
    2.163
    Используйте Конструктор запросов для извлечения домена и используйте полученное значение в имени файла.
    Код:
    eJxtU01v2zAM/S9EjkGAHnrxLe0WbIVbd216CnoQbDrQIouqJGctDP/3kbJju0Vv
    4tfjIx/VQVThFB49BowBskMHLr0hgwpr1ZoIa3DKB/QSPsCv/X2eZbm2p5/v0asy
    kueMKbeD+OGQq8lFTTZwTFdsJogcz2jYc1am5Zzr/vV1DdyOK8OOfKOk7cpdbUYO
    U/BZnXFPHKy1wdm9Y+tBNdJu1b216D82FTVK234T36VcVZUWGsoM8DLC3PLF6jfh
    AZY4V+o1hp2nhl0RE0ACvVA7wCrZwBBtqv0z1EBWKxNwDYF57hSzqr5GdESveFfF
    uJasA7JbY9JK5rSEf9NqU/G+tzUX/R4Lv08plhjRt9hP0y07ndH/80xhAknWTXE/
    OriqopyOl12cEN20nQfxNORxQhxBxkZ8PA6tiDwrs3Wz6xPhdGKBWl8K9LDO9eVm
    cLioPbkfSUaJiOqDqNDP0i3g2FmSrfWx4Cm9rvAicmv3fNuFvaXGGZThbWsMSxfw
    ab6fbRilEmMe7WvxbWrx6VdEIhPunochndfM9FoINrzuZdcRslTGvDzlywjMZzcY
    pYp4JF4JTyDTjh9v+p7dt98v63oW8G94HLJlEMllH28ksGSQXfX/AQV4YiE=
     
  7. Focus17

    Focus17 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 апр 2019
    Сообщения:
    6
    Симпатии:
    0
    Что краулер с таким запросом не хочет краулить:
    eyJwcmVzZXQiOiJcdTA0MWZcdTA0MTBcdTA0MjNcdTA0MWEiLCJ2YWx1ZSI6eyJw
    cmVzZXQiOiJcdTA0MWZcdTA0MTBcdTA0MjNcdTA0MWEiLCJwYXJzZXJzIjpbWyJI
    VE1MOjpMaW5rRXh0cmFjdG9yIiwiZGVmYXVsdCIseyJ0eXBlIjoib3B0aW9ucyIs
    ImlkIjoicGFyc2VMZXZlbCIsInZhbHVlIjoyfSx7InR5cGUiOiJvdmVycmlkZSIs
    ImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiIkaW50bGlua3MuZm9ybWF0KCck
    bGlua1xcbicpIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6ImZvbGxvdyIsInZh
    bHVlIjowfV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNT
    YXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoic3BpZGVyLyR7cXVlcnku
    ZG9tYWlufS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlx
    dWUiOiJzdHJpbmciLCJxdWVyaWVzRnJvbSI6InRleHQiLCJxdWVyeUZvcm1hdCI6
    WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVy
    aWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxz
    ZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1aWxk
    ZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMiOnsib3Zlcndy
    aXRlIjpmYWxzZSwid3JpdGVCT00iOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBV
    bmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQi
    OiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W3sic291cmNl
    IjoicXVlcnkiLCJ0eXBlIjoiZXh0cmFjdFRvcERvbWFpbiIsInRvIjoicXVlcnki
    fV0sInJlc3VsdHNCdWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W10sInJ1
    blRhc2tPbkNvbXBsZXRlIjpudWxsLCJ1c2VSZXN1bHRzRmlsZUFzUXVlcmllc0Zp
    bGUiOmZhbHNlLCJydW5UYXNrT25Db21wbGV0ZUNvbmZpZyI6ImRlZmF1bHQiLCJ0
    b29sc0pTIjoiIiwicHJpbyI6NSwicmVtb3ZlT25Db21wbGV0ZSI6ZmFsc2UsImNh
    bGxVUkxPbkNvbXBsZXRlIjoiIiwicXVlcmllcyI6InN0dWR5bGliLmVzXG51Y2hp
    Y2Fnby5lZHVcbnJodXRobW9zLmV1XG5kaXppb25hcmlvLWxhdGluby5jb21cbmxl
    bnppbmMuY29tXG5pbmRpYW5hLmVkdVxuZHJvcHBkZi5jb20iLCJjYXRlZ29yeSI6
    W119fQ==
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.546
    Симпатии:
    2.163
    Ссылки должны быть с протоколом (http/https)
     
  9. Focus17

    Focus17 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 апр 2019
    Сообщения:
    6
    Симпатии:
    0
  10. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.546
    Симпатии:
    2.163
    Вы Конструктором запросов извлекаете домен и помещаете его в переменную $query
    Поэтому ссылка все так же без протокола
     
  11. Focus17

    Focus17 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 апр 2019
    Сообщения:
    6
    Симпатии:
    0
    Т.е. мне извлекать домен и помещать его в переменную в самый последний момент?
     
  12. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.546
    Симпатии:
    2.163
    Просто в другую переменную. А вообще, выше есть готовый пример.
     

Поделиться этой страницей