Приветствую. До последнего пытался решиться сам - не получилось.
Задача у меня следующая. У меня есть список ccылок.
Что нужно... парсить домен (причем важно учитывать http или https) -> заходить на главную -> искать на странице Anchor с вхождением registraion ->полученную ссылку c вхождением registraion сохранять.
Единственная проблема... как отсекать не нужные мне доменные зоны(сайты) (ru|ua|by) ДО запроса? Сейчас отсекается только ПОСЛЕ чека (в results не попадают не нужные мне зоны), а это доп-я, не нужная нагрузка.
+ столкнулся с проблемой в рег. выражении...
пытаюсь распарсить ссылку ($query), например, http(s)://domain.com/1/2/3/index.html мне нужно обрезать до http(s)://domain.com (повторюсь, важно учитывать http это или https)
1.
1.1 - Регулярное выражение возвращает только http(s), не пойму почему не "дергает" еще и домен.
Сделал на костыле (см. 1.2)
Т.е строка запрос получается $query.http://$query.domain через этот "сплит" потом и лезу на главную сайта для поиска вхождения registration
2. Фильтр не дает сохранить домены опред. зон (этот бы фильтр и применить до "запроса")
2.1. Рег-е выражение ищет в ссылке вхождение зоны и если оно есть -> не включает его в результат.
Сейчас приходится пользоваться отдельным софтом для удаления ru,ua и тп не нужных зон, только потом чекать.
Cпасибо!
Задача у меня следующая. У меня есть список ccылок.
Что нужно... парсить домен (причем важно учитывать http или https) -> заходить на главную -> искать на странице Anchor с вхождением registraion ->полученную ссылку c вхождением registraion сохранять.
Единственная проблема... как отсекать не нужные мне доменные зоны(сайты) (ru|ua|by) ДО запроса? Сейчас отсекается только ПОСЛЕ чека (в results не попадают не нужные мне зоны), а это доп-я, не нужная нагрузка.
+ столкнулся с проблемой в рег. выражении...
пытаюсь распарсить ссылку ($query), например, http(s)://domain.com/1/2/3/index.html мне нужно обрезать до http(s)://domain.com (повторюсь, важно учитывать http это или https)
1.
1.1 - Регулярное выражение возвращает только http(s), не пойму почему не "дергает" еще и домен.
Сделал на костыле (см. 1.2)
Т.е строка запрос получается $query.http://$query.domain через этот "сплит" потом и лезу на главную сайта для поиска вхождения registration
2. Фильтр не дает сохранить домены опред. зон (этот бы фильтр и применить до "запроса")
2.1. Рег-е выражение ищет в ссылке вхождение зоны и если оно есть -> не включает его в результат.
Сейчас приходится пользоваться отдельным софтом для удаления ru,ua и тп не нужных зон, только потом чекать.
Cпасибо!