Помогите пожалуйста рещить задачу: Есть файл со списком сайтов вида website1.com website2.com и т.д. Необходимо пройтись по всем внутренним страницам сайта, посчитать кол-во исходящих ссылок на сторонние ресурсы на каждой странице, просуммировать эти числа и сохранить построчно в файл. При этом необходимо исключить повторяющиеся ссылки. Например website1.com состоит из 2 страниц (соответственно главной и внутренней). Имеет 3 исходящие ссылки с главной страницы и 12 исходящих ссылок с внутренней страницы. При этом среди них есть 1 одинаковая на главной и внутренней. В результирующий файл должна записаться строка website1.com;14 Заранее спасибо!
Для правильного решения данной задачи нужна реализация данного улучшения: http://a-parser.com/threads/2581/ Как только оно будет реализовано, я выложу здесь пресет.