Карта сайта и заголовки

Пресет Собрать карту сайта + заголовки урлов 1.0

Доступно владельцам лицензии

span4bob

A-Parser Pro License
A-Parser Pro
Добрый день
Я как понимаю, чтобы собрать карту сайта нужно использовать https://a-parser.com/wiki/html-linkextractor/
Возник другой вопрос, реально ли сделать так :
Закинуть в a-parser к примеру домен и чтобы он начал собирать все внутренние ссылки и в отчете, рядом с ссылкой публиковал текст из тега title ?
то есть
url1 - title1
urll2 - title2
url3 - title3

и тд..

Можно отчет не в тхт, а к примеру в csv.

Реально ли такое сделать?
 
Пользователь Support Юра разместил новый ресурс:

Карта сайта и заголовки - Пресет собирает карту сайта и её заголовки

Пресет собирает все внутренние ссылки и в результат выводит запрос (ссылку на страницу) и тайтл страницы:
Посмотреть вложение 657
В пресете есть возможность задать "глубину парсинга", через опцию "Parse to level".
В результат получаем карту сайта и заголовки:

Узнать больше об этом ресурсе...
 
Допустим на входе есть файл со списком сайтов:
site1
site2
.....
siteN
Нужно чтобы карты сайтов собирались по каждому сайту отдельно:
site1.txt
site2.txt
.....
siteN.txt
Подскажите пожалуйста как реализовать данным пресетом
 
Здравствуйте.
Для решения Вашей задачи поменяйте содержимое поля "Имя файла" на следующую конструкцию:
[% query.first.match('https?://([^/]+)').0 _ '.txt' %]
Подробнее о форматировании результатов, можно почитать здесь
 
А как сделать чтобы при сохранении в тайтле вырезался знак " | "
 
А как сделать чтобы при сохранении в тайтле вырезался знак " | "
Через конструктор результатов. https://image.prntscr.com/image/FQEn25t1Qs_0_MqQpQL98w.png
Простейший вариант, поиск замена. Поиск | заменить на пусто. https://image.prntscr.com/image/mnayQeowRSGULY3MNyR00A.png
Ну или составлять регулярку если, если нужно специфическая вырезка. https://image.prntscr.com/image/R-4vtwj5TMG0aqNndtW0mg.png
 
Подскажите,пожалуйста, как сохранять в результатах только урлы, содержащие определенный кусок, например thread.
 
а как сделать чтобы результаты сохранялись в разном формате в отдельные файлы по 500 урлов например.
Пример:
Код:
1 файл:
500 урл в формате
<a href="https:/site.com">anchor1</a>
<a href="https:/site.com">anchor500</a>
2 файл:
[url=https://site.com]anchor1[/url]
 [url=https://site.com]anchor500[/url]
 
Последнее редактирование:
Здравствуйте.
По этой ссылке есть пример
По аналогии можете сделать в формате результата и в формате имени файла.
 
Возможно на сайте стоит защита, либо если парсите без прокси то ваш IP забанен. Как вариант можете попробовать юзер агент поставить посовременней( переопределить опцию User agent)
 
Паршу с проксями. Там скорее всего капча от Cloudflare.
Можно как-то подключить ее решение?
 
Нет. Только JS парсер если разработать, и в нем реализовать возможность подключения каптчи.
 
Подскажите пожалуйста, как сделать что бы в файл сохранялись только тайтлы, без урл.
 
Измените формат результата. Ознакомиться с документацией по форматированию результата вы можете по этой ссылке
Конкретно в этом случае измените
Код:
$intlinks.format('$link $anchor\n')
на
Код:
$intlinks.format('$anchor\n')
Если нужны анкоры очищенные от html тегов то
Код:
$intlinks.format('$cleananchor\n')
 
Последнее редактирование:
Назад
Верх