Вопрос по парсингу сайтов (доменов)

  • Автор темы Автор темы Iura
  • Дата начала Дата начала

Iura

A-Parser Enterprise License
A-Parser Enterprise
Здравствуйте.
У нас есть список сайтов с новой строки все они вида http://site.com

На нужно "прогнать" весь список сайтов и получить на выходе домены с https и www на тех. доменах на которых они есть
Пример:
https://site.com
https://www.site.com
http://www.site.com

Скажите пожалуйста каким парсером это можно сделать?

Если простыми словами то загоняем домены в парсер вида http://site.com, разрешаем всевозможные редиректы и когда редиректы закончились выдергиваем результат домена куда привели редиректы и записываем их в файл.

Подскажите чем такое можно реализовать?
 
Добрый день.
Нужно использовать Net::HTTP Net::HTTP, а в результат выводить $response.URI, при этом также фильтруя по [% response.URI %], выбрав в фильтре Custom Template.
EonUc.png
 
  • Like
Реакции: Iura
Опять же не все сайты срабатывают - пример:
11/09 12:50:17
Parser Net::HTTP::0 parse query http://alexhost.md/
11/09 12:50:17
Wait for proxy
11/09 12:50:17
Use proxy socks://91.200.82.109:1085
11/09 12:50:19
GET(1): https://alexhost.md/ - 200 OK (5.07 KB)
11/09 12:50:19
Decode from utf-8(meta http-equiv)
11/09 12:50:19
Parse response: 1
11/09 12:50:19
Thread complete work
11/09 12:50:19



Выдает пустой результат
 
По первому посту и я не понял, что нужно получить все редиректные домены, думал обязательное условие https и www.
Можно так тогда, Regex not match ^[% query %]/?$:
3cusTA9.jpg
 
Поясните на примерах что вы задаете в запросе, и что нужно получить в результате.
 
Столкнулся с похожей задачей и чтобы не плодить темы решил написать здесь.

Итак, есть список урлов, нужно проверить есть редирект на них или нет.
Соответственно, результаты проверки необходимо записать в 2 файла:
no.txt - нет редиректа, формат: проверяемый урл
yes.txt - есть редирект, формат: проверяемый урл|конечный урл
 
45dbV.png

Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIk5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6Im92ZXJy
aWRlIiwiaWQiOiJvbmx5aGVhZGVycyIsInZhbHVlIjp0cnVlfV1dLCJyZXN1bHRz
Rm9ybWF0IjoiWyUgSUYgcDEucmVzcG9uc2UuUmVkaXJlY3RzLnNpemUgPiAwO1xu
cXVlcnkgX1wifFwiXyBwMS5yZXNwb25zZS5VUkkgX1wiXFxuXCI7XG5FTFNFO1xu
cXVlcnkgX1wiXFxuXCI7XG5FTkQgJV0iLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIs
InJlc3VsdHNGaWxlTmFtZSI6IlslIElGIHAxLnJlc3BvbnNlLlJlZGlyZWN0cy5z
aXplID4gMDtcblwieWVzLnR4dFwiO1xuRUxTRTtcblwibm8udHh0XCI7XG5FTkQg
JV0iLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIs
InF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwi
c2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25B
bGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFs
c2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ci
OiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVz
dWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVy
cyI6W10sInJlc3VsdHNCdWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119
fQ==
 
Назад
Верх