Добрый день Я как понимаю, чтобы собрать карту сайта нужно использовать https://a-parser.com/wiki/html-linkextractor/ Возник другой вопрос, реально ли сделать так : Закинуть в a-parser к примеру домен и чтобы он начал собирать все внутренние ссылки и в отчете, рядом с ссылкой публиковал текст из тега title ? то есть url1 - title1 urll2 - title2 url3 - title3 и тд.. Можно отчет не в тхт, а к примеру в csv. Реально ли такое сделать?
Пользователь Support Юра разместил новый ресурс: Карта сайта и заголовки - Пресет собирает карту сайта и её заголовки Узнать больше об этом ресурсе...
Допустим на входе есть файл со списком сайтов: site1 site2 ..... siteN Нужно чтобы карты сайтов собирались по каждому сайту отдельно: site1.txt site2.txt ..... siteN.txt Подскажите пожалуйста как реализовать данным пресетом
Здравствуйте. Для решения Вашей задачи поменяйте содержимое поля "Имя файла" на следующую конструкцию: Подробнее о форматировании результатов, можно почитать здесь
Через конструктор результатов. https://image.prntscr.com/image/FQEn25t1Qs_0_MqQpQL98w.png Простейший вариант, поиск замена. Поиск | заменить на пусто. https://image.prntscr.com/image/mnayQeowRSGULY3MNyR00A.png Ну или составлять регулярку если, если нужно специфическая вырезка. https://image.prntscr.com/image/R-4vtwj5TMG0aqNndtW0mg.png
Подскажите,пожалуйста, как сохранять в результатах только урлы, содержащие определенный кусок, например thread.
Используйте фильтр и фильтруйте $intlinks на наличие строки thread в них. Подробнее об использовании фильтров: https://a-parser.com/wiki/filter/
а как сделать чтобы результаты сохранялись в разном формате в отдельные файлы по 500 урлов например. Пример: Код: 1 файл: 500 урл в формате <a href="https:/site.com">anchor1</a> <a href="https:/site.com">anchor500</a> 2 файл: [url=https://site.com]anchor1[/url] [url=https://site.com]anchor500[/url]
Здравствуйте. По этой ссылке есть пример По аналогии можете сделать в формате результата и в формате имени файла.
Возможно на сайте стоит защита, либо если парсите без прокси то ваш IP забанен. Как вариант можете попробовать юзер агент поставить посовременней( переопределить опцию User agent)
Измените формат результата. Ознакомиться с документацией по форматированию результата вы можете по этой ссылке Конкретно в этом случае измените Код: $intlinks.format('$link $anchor\n') на Код: $intlinks.format('$anchor\n') Если нужны анкоры очищенные от html тегов то Код: $intlinks.format('$cleananchor\n')