Пресет Собрать карту сайта + заголовки урлов 1.0

span4bob · 2 Ноя 2017

Добрый день
Я как понимаю, чтобы собрать карту сайта нужно использовать https://a-parser.com/wiki/html-linkextractor/
Возник другой вопрос, реально ли сделать так :
Закинуть в a-parser к примеру домен и чтобы он начал собирать все внутренние ссылки и в отчете, рядом с ссылкой публиковал текст из тега title ?
то есть
url1 - title1
urll2 - title2
url3 - title3

и тд..

Можно отчет не в тхт, а к примеру в csv.

Реально ли такое сделать?

Support Юра · 2 Ноя 2017

Пользователь Support Юра разместил новый ресурс:

Карта сайта и заголовки - Пресет собирает карту сайта и её заголовки

Пресет собирает все внутренние ссылки и в результат выводит запрос (ссылку на страницу) и тайтл страницы:
Посмотреть вложение 657
В пресете есть возможность задать "глубину парсинга", через опцию "Parse to level".
В результат получаем карту сайта и заголовки:

https://trello.com ; Trello
https://trello.com/home ; Trello
https://trello.com/signup?returnUrl=/ ; Create a Trello Account
https://trello.com/signup ; Create a Trello Account...

Нажмите, чтобы раскрыть...

Узнать больше об этом ресурсе...

Alexey Nikitin · 8 Дек 2017

Допустим на входе есть файл со списком сайтов:
site1
site2
.....
siteN
Нужно чтобы карты сайтов собирались по каждому сайту отдельно:
site1.txt
site2.txt
.....
siteN.txt
Подскажите пожалуйста как реализовать данным пресетом

Support Юра · 8 Дек 2017

Здравствуйте.
Для решения Вашей задачи поменяйте содержимое поля "Имя файла" на следующую конструкцию:

[% query.first.match('https?://([^/]+)').0 _ '.txt' %]

Подробнее о форматировании результатов, можно почитать здесь

Alexey Nikitin · 9 Дек 2017

А как сделать чтобы при сохранении в тайтле вырезался знак " | "

Zlodeys · 10 Дек 2017

Alexey Nikitin сказал(а):
А как сделать чтобы при сохранении в тайтле вырезался знак " | "

Через конструктор результатов. https://image.prntscr.com/image/FQEn25t1Qs_0_MqQpQL98w.png
Простейший вариант, поиск замена. Поиск | заменить на пусто. https://image.prntscr.com/image/mnayQeowRSGULY3MNyR00A.png
Ну или составлять регулярку если, если нужно специфическая вырезка. https://image.prntscr.com/image/R-4vtwj5TMG0aqNndtW0mg.png

alexcraft · 6 Ноя 2018

Подскажите,пожалуйста, как сохранять в результатах только урлы, содержащие определенный кусок, например thread.

Support · 7 Ноя 2018

Используйте фильтр и фильтруйте $intlinks на наличие строки thread в них.
Подробнее об использовании фильтров: https://a-parser.com/wiki/filter/

woodoo · 22 Мар 2019

а как сделать чтобы результаты сохранялись в разном формате в отдельные файлы по 500 урлов например.
Пример:

Код:

1 файл:
500 урл в формате
<a href="https:/site.com">anchor1</a>
<a href="https:/site.com">anchor500</a>
2 файл:
[url=https://site.com]anchor1[/url]
 [url=https://site.com]anchor500[/url]

Support Денис · 22 Мар 2019

Здравствуйте.
По этой ссылке есть пример
По аналогии можете сделать в формате результата и в формате имени файла.

Dohrenarh · 28 Апр 2019

Не работает. В файле одна строка:
https://site.com none
Что я не так делаю?

Support Денис · 29 Апр 2019

Здравствуйте. Что пишет в логе задания ?

Dohrenarh · 30 Апр 2019

Support Денис сказал(а):
Здравствуйте. Что пишет в логе задания ?

403 Forbidden (0 KB)
Поставил 1000 попыток, жду.

Support Денис · 30 Апр 2019

Возможно на сайте стоит защита, либо если парсите без прокси то ваш IP забанен. Как вариант можете попробовать юзер агент поставить посовременней( переопределить опцию User agent)

Dohrenarh · 30 Апр 2019

Паршу с проксями. Там скорее всего капча от Cloudflare.
Можно как-то подключить ее решение?

Support Денис · 30 Апр 2019

Нет. Только JS парсер если разработать, и в нем реализовать возможность подключения каптчи.

Dohrenarh · 30 Апр 2019

Помог юзерагент, спасибо)

Dohrenarh · 30 Апр 2019

Подскажите пожалуйста, как сделать что бы в файл сохранялись только тайтлы, без урл.

Support Денис · 30 Апр 2019

Измените формат результата. Ознакомиться с документацией по форматированию результата вы можете по этой ссылке
Конкретно в этом случае измените

Код:

$intlinks.format('$link $anchor\n')

на

Код:

$intlinks.format('$anchor\n')

Если нужны анкоры очищенные от html тегов то

Код:

$intlinks.format('$cleananchor\n')

Пресет Собрать карту сайта + заголовки урлов 1.0

A-Parser Pro License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Pro License

A-Parser Enterprise License

Administrator

A-Parser Pro License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

О нас

Быстрая навигация

Соцсети

Поддержка