Пардон, если тема уже была, прошу подсказать, по возможности, как фильтровать исходящие (внешние) ссылки (парсер HTML::LinkExtractor), чтобы в результате не было ссылок на поддомены и тп.
Например запрос http://www.twitch.tv/ , один из результатов http://www.blog.twitch.tv/, или запрос http://devil.livejournal.com/, в результатах http://www.livejournal.com/.
Хочется убрать эти ссылки, т.к. они совсем не внешние.
Например запрос http://www.twitch.tv/ , один из результатов http://www.blog.twitch.tv/, или запрос http://devil.livejournal.com/, в результатах http://www.livejournal.com/.
Хочется убрать эти ссылки, т.к. они совсем не внешние.