Вот дополненный вариант: Алгоритм работы: Переходим только по внешним ссылкам Фильтруем ссылки для перехода по признакам форумов Добавляем уникализацию по домену Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся Спойлер: Код пресета Код: eyJwcmVzZXQiOiJcdTA0MjFcdTA0MzFcdTA0M2VcdTA0NDAgXHUwNDNmXHUwNDM1 XHUwNDQwXHUwNDM1XHUwNDNiXHUwNDM4XHUwNDNkXHUwNDNhXHUwNDNlXHUwNDMy XHUwNDMwXHUwNDNkXHUwNDNkXHUwNDRiXHUwNDQ1IFx1MDQ0Mlx1MDQzZVx1MDQz Zlx1MDQzOFx1MDQzYVx1MDQzZVx1MDQzMiIsInZhbHVlIjp7InBhcnNlcnMiOltb IkhUTUw6OkxpbmtFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJvcHRpb25z IiwiaWQiOiJwYXJzZUxldmVsIiwidmFsdWUiOjEwfSx7InR5cGUiOiJvdmVycmlk ZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiIkZm9sbG93bGlua3MuZm9y bWF0KCckbGluayAkYW5jaG9yXFxuJykifSx7InR5cGUiOiJvdmVycmlkZSIsImlk IjoiZm9sbG93IiwidmFsdWUiOjJ9LHsidHlwZSI6ImZpbHRlciIsInJlc3VsdCI6 WyJmb2xsb3dsaW5rcyIsImxpbmsiXSwiZmlsdGVyVHlwZSI6InJlbWF0Y2giLCJ2 YWx1ZSI6InZpZXd0b3BpY1xcLnBocHx2aWV3Zm9ydW1cXC5waHB8dmlld3RocmVh ZFxcLnBocHx0aHJlYWQtfGZvcnVtXFwucGhwfHNob3d0aHJlYWRcXC5waHB8Zm9y dW1kaXNwbGF5XFwucGhwfFlhQkJcXC5wbHxZYUJCXFwuY2dpfHViYnRocmVhZHNc XC5waHB8dWx0aW1hdGViYlxcLnBocHx1bHRpbWF0ZWJiXFwuY2dpfGluZGV4XFwu cGhwXFw/c2hvd3RvcGljPXx0aHJlYWRzfHRvcGljfG1lbWJlcnN8bWVtYmVyXFwu cGhwfG1lbWJlcmxpc3RcXC5waHB8cHJvZmlsZVxcLnBocHx1c2VyaW5mb1xcLnBo cHx2aWV3dG9waWN8dmlld2ZvcnVtfHZpZXd0aHJlYWR8dG9waWN8dGhyZWFkfHNo b3d0aHJlYWR8c2hvd3RvcGljfHNob3dmb3J1bSIsIm9wdGlvbiI6IiJ9LHsidHlw ZSI6InVuaXF1ZSIsInJlc3VsdCI6WyJmb2xsb3dsaW5rcyIsImxpbmsiXSwidW5p cXVlVHlwZSI6ImRvbWFpbiIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0 c0Zvcm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJl c3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQiLCJhZGRpdGlv bmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0 IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjp0cnVlLCJzYXZlRmFpbGVkUXVl cmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFs c2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMi OmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJx dWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmlnT3Zl cnJpZGVzIjpbXX19
Так логика в том, что указав, например, одну ссылку на топик, с которого ведут 2 ссылки на другие форумы, а с тех форумов на следующие и т.д., А-парсер пройдёт с этой одной ссылки по всем ссылкам, которые исходят из этих перелинкованных топиков по всей сетке перелинковки этих постов, даже если там будет 50К форумов перелинковано? Или мне нужно будет руками искать топики, которые, предположительно, перелинкованы и добавлять их в базу, с которой уже будет работать А-парсер?
Я делаю так: парсю по кеям из ПС сырую базу, а уже по ней потом прохожусь, чтобы собрать перелинкованные топики. Forbidden, как считаете - это правильный подход?
Что думаете на счёт этой темы по автоматическому сбору ссылок на перелинкованные топики, которые потом обрабатывать А-парсером? Вот более интересный вариант сбора ссылок на перелинкованные топики.
А нельзя ли чуток допилить HTML:LinkExtraktor чтобы он умел переходить по этим перелинкованным топикам до бесконечности. На лету собрал-перешел, собрал-перешел по собранным, собрал еще, снова перешел по собранным, как то зациклить этот процесс. На данный момент этот вариант парсит те ссылки которые ему подсовываешь, надо добится чтобы 1 ссылку с ссылками на другие топики дать а-парсеру и пошло бы дело, вот истинная задача сбора перелинкованных топиков
вообще то он так и делает, и ненадо ничего "допиливать" глубина прохода регулируется параметром Parse to level
Не пойму отчего успешные уникальные в интерфейсе одно а в файл пишет в 2 раза меньше? Разобрался, это оно уник по строке в интерфейсе показывает, убрал галлку все верно стало.
верно, если включить 2 одинаковых уника в разны местах то посчитает в счетчике 2 раза, по факту сами результаты будут корректные
Уважаемый Forbidden, а по такому принципу не получится собирать топики, стартуя с гугла к примеру, как в этом видеоролле
чтобы начать с гугла достаточно напарсить первичную базу с него используя парсер SE::Google и потом использовать ее в качестве запросов для этого задания
Forbidden , подскажите пожалуйста как правильно составить шаблон, что бы сохранялись только ссылки без названий топиков ? вроде должно быть просто, но что то не выходит. в файле получаются ссылки такого вида: http://site.com/.... + keyword или даже такие http://site.com/.... + http://site.com/....