1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Спарсить внутренние ссылки с анкорами 1.0

Пример генерации имени файла результата "на лету"

  1. aquatell

    aquatell A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2012
    Сообщения:
    150
    Симпатии:
    43
    Всем привет, подмогните пожалуйста с пресетом
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
    InBhcnNlcnMiOltbIkhUTUw6OkxpbmtFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
    cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9LHsi
    dHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3JtYXRyZXN1bHQiLCJ2YWx1ZSI6IiRp
    bnRsaW5rcy5mb3JtYXQoJyRsaW5rfHx8JGFuY2hvclxcbicpIn0seyJ0eXBlIjoi
    dW5pcXVlIiwicmVzdWx0IjoicXVlcnkiLCJ1bmlxdWVUeXBlIjoic3RyaW5nIiwi
    dW5pcXVlR2xvYmFsIjp0cnVlfSx7InR5cGUiOiJvcHRpb25zIiwiaWQiOiJwYXJz
    ZUxldmVsIiwidmFsdWUiOjN9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3Vs
    dCI6InF1ZXJ5IiwicmVnZXgiOiIiLCJyZWdleFR5cGUiOiIiLCJyZXN1bHRUeXBl
    IjoiZmxhdCIsImFycmF5TmFtZSI6IiIsInJlc3VsdHMiOlsiIl19LHsidHlwZSI6
    Im92ZXJyaWRlIiwiaWQiOiJmb2xsb3ciLCJ2YWx1ZSI6MH1dXSwicmVzdWx0c0Zv
    cm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3Vs
    dHNGaWxlTmFtZSI6InJlc3VsdHMvbmV3ZG9vcnMvVVJMc19SRVNVTFQudHh0Iiwi
    YWRkaXRpb25hbEZvcm1hdHMiOltbInJlc3VsdHMvbmV3ZG9vcnMvJHtwMS5xdWVy
    eS5vcmlnfS50eHQiLCIkcXVlcnlcXG4iXV0sInJlc3VsdHNVbmlxdWUiOiJubyIs
    InF1ZXJ5Rm9ybWF0IjpbImh0dHA6Ly8kcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6
    ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25z
    Ijp7Im9uQWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3
    cml0ZSI6dHJ1ZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3Jl
    T3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVu
    ZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJj
    b25maWdPdmVycmlkZXMiOltdfX0=
    Задача спарсить с 25 сайтов внутренние ссылки с анкорами, а на выходе чтобы получились 25 файлов с названиями доменов, чтобы по каждому домену ссылки с анкорами в отдельном файле были.
    Парсить надо только a hrefs потому что попадают еще теги картинок, а так же надо очищать анкоры от нечитаемых символов.
    Заранее благодарен.
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Попробуйте такой вариант:
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY2Ni8iLCJ2
    YWx1ZSI6eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY2
    Ni8iLCJwYXJzZXJzIjpbWyJIVE1MOjpMaW5rRXh0cmFjdG9yIiwiZGVmYXVsdCIs
    eyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNl
    fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUi
    OiIkaW50bGlua3MuZm9ybWF0KCckbGlua3x8fCRhbmNob3JcXG4nKSJ9LHsidHlw
    ZSI6Im9wdGlvbnMiLCJpZCI6InBhcnNlTGV2ZWwiLCJ2YWx1ZSI6M30seyJ0eXBl
    Ijoib3ZlcnJpZGUiLCJpZCI6ImZvbGxvdyIsInZhbHVlIjowfSx7InR5cGUiOiJm
    aWx0ZXIiLCJyZXN1bHQiOlsiaW50bGlua3MiLCJhbmNob3IiXSwiZmlsdGVyVHlw
    ZSI6Im5vdGNvbnRhaW4iLCJ2YWx1ZSI6ImltZyIsIm9wdGlvbiI6InNlbnMifV1d
    LCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJm
    aWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoicmVzdWx0cy9uZXdkb29ycy8ke3AxLmRv
    bWFpbn0udHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVl
    Ijoic3RyaW5nIiwicXVlcnlGb3JtYXQiOlsiaHR0cDovLyRxdWVyeSJdLCJ1bmlx
    dWVRdWVyaWVzIjp0cnVlLCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJh
    dG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNB
    ZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0
    ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9w
    dGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQi
    OiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbeyJzb3Vy
    Y2UiOlswLFsiaW50bGlua3MiLCJhbmNob3IiXV0sInR5cGUiOiJyZW1vdmVIdG1s
    IiwiYXJyYXkiOiJpbnRsaW5rcyIsInRvIjoiYW5jaG9yIn0seyJzb3VyY2UiOlsw
    LFsiaW50bGlua3MiLCJhbmNob3IiXV0sInR5cGUiOiJkZWNvZGVIdG1sIiwiYXJy
    YXkiOiJpbnRsaW5rcyIsInRvIjoiYW5jaG9yIn0seyJzb3VyY2UiOlswLCJxdWVy
    eS5maXJzdCJdLCJ0eXBlIjoiZXh0cmFjdERvbWFpbiIsInRvIjoiZG9tYWluIn1d
    LCJjb25maWdPdmVycmlkZXMiOltdfX0=
     
    #2 Support, 28 май 2015
    Последнее редактирование: 28 май 2015
    seowin555, Oopssik, Max и 2 другим нравится это.
  3. aquatell

    aquatell A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2012
    Сообщения:
    150
    Симпатии:
    43
    Все супер. Спасибо!:)
     
  4. Ligahost

    Ligahost A-Parser Pro License
    A-Parser Pro

    Регистрация:
    1 фев 2014
    Сообщения:
    12
    Симпатии:
    0
    как в этот пресет добавить, что бы парсил с каждого сайта только 1000 ссылок?
    не хочет парсить если указать ссылку с папкой site.ru/papka
     
    #4 Ligahost, 26 янв 2016
    Последнее редактирование: 26 янв 2016
  5. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    В данном пресете регулировать кол-во результатов можно только уровнем вложенности (Parse to level). Соответственно итоговое количество ссылок зависит от заданной глубины и кол-ва ссылок на каждом уровне.
    Скорее всего при обращении по такому адресу сервер редиректит на site.ru/papka/
    В HTML::LinkExtractor по-умолчанию отключено следование редиректам, поэтому запрос сразу попадает в неудачные. Решение: либо сразу подавать запрос со слешем в конце, либо установить параметр Max redirects count = 1 (или другое значение >0, если предполагается, что редиректов по запросу может быть больше).
     

Поделиться этой страницей