1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Собрать карту сайта + заголовки урлов 1.0

Пресет собирает карту сайта и её заголовки

  1. span4bob

    span4bob A-Parser Pro License
    A-Parser Pro

    Регистрация:
    14 май 2016
    Сообщения:
    16
    Симпатии:
    4
    Добрый день
    Я как понимаю, чтобы собрать карту сайта нужно использовать https://a-parser.com/wiki/html-linkextractor/
    Возник другой вопрос, реально ли сделать так :
    Закинуть в a-parser к примеру домен и чтобы он начал собирать все внутренние ссылки и в отчете, рядом с ссылкой публиковал текст из тега title ?
    то есть
    url1 - title1
    urll2 - title2
    url3 - title3

    и тд..

    Можно отчет не в тхт, а к примеру в csv.

    Реально ли такое сделать?
     
  2. Support Юра

    Support Юра A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    13 июн 2017
    Сообщения:
    122
    Симпатии:
    71
    Пользователь Support Юра разместил новый ресурс:

    Карта сайта и заголовки - Пресет собирает карту сайта и её заголовки

    Узнать больше об этом ресурсе...
     
  3. Alexey Nikitin

    Alexey Nikitin A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 ноя 2017
    Сообщения:
    4
    Симпатии:
    0
    Допустим на входе есть файл со списком сайтов:
    site1
    site2
    .....
    siteN
    Нужно чтобы карты сайтов собирались по каждому сайту отдельно:
    site1.txt
    site2.txt
    .....
    siteN.txt
    Подскажите пожалуйста как реализовать данным пресетом
     
  4. Support Юра

    Support Юра A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    13 июн 2017
    Сообщения:
    122
    Симпатии:
    71
    Здравствуйте.
    Для решения Вашей задачи поменяйте содержимое поля "Имя файла" на следующую конструкцию:
    Подробнее о форматировании результатов, можно почитать здесь
     
    Alexey Nikitin нравится это.
  5. Alexey Nikitin

    Alexey Nikitin A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 ноя 2017
    Сообщения:
    4
    Симпатии:
    0
    А как сделать чтобы при сохранении в тайтле вырезался знак " | "
     
  6. Zlodeys

    Zlodeys A-Parser Pro License
    A-Parser Pro

    Регистрация:
    2 фев 2016
    Сообщения:
    51
    Симпатии:
    30
    Через конструктор результатов. https://image.prntscr.com/image/FQEn25t1Qs_0_MqQpQL98w.png
    Простейший вариант, поиск замена. Поиск | заменить на пусто. https://image.prntscr.com/image/mnayQeowRSGULY3MNyR00A.png
    Ну или составлять регулярку если, если нужно специфическая вырезка. https://image.prntscr.com/image/R-4vtwj5TMG0aqNndtW0mg.png
     
    Support, Support Юра и Alexey Nikitin нравится это.
  7. alexcraft

    alexcraft A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    6 мар 2016
    Сообщения:
    7
    Симпатии:
    2
    Подскажите,пожалуйста, как сохранять в результатах только урлы, содержащие определенный кусок, например thread.
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Используйте фильтр и фильтруйте $intlinks на наличие строки thread в них.
    Подробнее об использовании фильтров: https://a-parser.com/wiki/filter/
     
    alexcraft нравится это.
  9. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    а как сделать чтобы результаты сохранялись в разном формате в отдельные файлы по 500 урлов например.
    Пример:
    Код:
    1 файл:
    500 урл в формате
    <a href="https:/site.com">anchor1</a>
    <a href="https:/site.com">anchor500</a>
    2 файл:
    [url=https://site.com]anchor1[/url]
     [url=https://site.com]anchor500[/url]
    
     
    #9 woodoo, 22 мар 2019
    Последнее редактирование: 22 мар 2019
  10. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Здравствуйте.
    По этой ссылке есть пример
    По аналогии можете сделать в формате результата и в формате имени файла.
     
  11. Dohrenarh

    Dohrenarh A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    5 окт 2016
    Сообщения:
    16
    Симпатии:
    1
    Не работает. В файле одна строка:
    https://site.com none
    Что я не так делаю?
     
  12. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Здравствуйте. Что пишет в логе задания ?
     
  13. Dohrenarh

    Dohrenarh A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    5 окт 2016
    Сообщения:
    16
    Симпатии:
    1
    403 Forbidden (0 KB)
    Поставил 1000 попыток, жду.
     
  14. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Возможно на сайте стоит защита, либо если парсите без прокси то ваш IP забанен. Как вариант можете попробовать юзер агент поставить посовременней( переопределить опцию User agent)
     
  15. Dohrenarh

    Dohrenarh A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    5 окт 2016
    Сообщения:
    16
    Симпатии:
    1
    Паршу с проксями. Там скорее всего капча от Cloudflare.
    Можно как-то подключить ее решение?
     
  16. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Нет. Только JS парсер если разработать, и в нем реализовать возможность подключения каптчи.
     
  17. Dohrenarh

    Dohrenarh A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    5 окт 2016
    Сообщения:
    16
    Симпатии:
    1
    Помог юзерагент, спасибо)
     
    Support Денис нравится это.
  18. Dohrenarh

    Dohrenarh A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    5 окт 2016
    Сообщения:
    16
    Симпатии:
    1
    Подскажите пожалуйста, как сделать что бы в файл сохранялись только тайтлы, без урл.
     
  19. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Измените формат результата. Ознакомиться с документацией по форматированию результата вы можете по этой ссылке
    Конкретно в этом случае измените
    Код:
    $intlinks.format('$link $anchor\n')
    на
    Код:
    $intlinks.format('$anchor\n')
    Если нужны анкоры очищенные от html тегов то
    Код:
    $intlinks.format('$cleananchor\n')
     
    #19 Support Денис, 30 апр 2019
    Последнее редактирование: 30 апр 2019
    Dohrenarh нравится это.

Поделиться этой страницей