Сбор перелинкованных топиков

Пресет Сбор перелинкованных топиков 1.0

Доступно владельцам лицензии

Sobesednic

A-Parser Enterprise License
A-Parser Enterprise
Можно пример, как правильно настроить а то не получается что то, пробовал по разному.

69af155a5b36ae4792af1a4e5e055ed0.png
 
что именно не получается? В тесте в принципе не будет никуда переходить потому что это тест
 
Вот дополненный вариант:
T2off.png


Алгоритм работы:
  • Переходим только по внешним ссылкам
  • Фильтруем ссылки для перехода по признакам форумов
  • Добавляем уникализацию по домену
  • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся
Код:
eyJwcmVzZXQiOiJcdTA0MjFcdTA0MzFcdTA0M2VcdTA0NDAgXHUwNDNmXHUwNDM1
XHUwNDQwXHUwNDM1XHUwNDNiXHUwNDM4XHUwNDNkXHUwNDNhXHUwNDNlXHUwNDMy
XHUwNDMwXHUwNDNkXHUwNDNkXHUwNDRiXHUwNDQ1IFx1MDQ0Mlx1MDQzZVx1MDQz
Zlx1MDQzOFx1MDQzYVx1MDQzZVx1MDQzMiIsInZhbHVlIjp7InBhcnNlcnMiOltb
IkhUTUw6OkxpbmtFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJvcHRpb25z
IiwiaWQiOiJwYXJzZUxldmVsIiwidmFsdWUiOjEwfSx7InR5cGUiOiJvdmVycmlk
ZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiIkZm9sbG93bGlua3MuZm9y
bWF0KCckbGluayAkYW5jaG9yXFxuJykifSx7InR5cGUiOiJvdmVycmlkZSIsImlk
IjoiZm9sbG93IiwidmFsdWUiOjJ9LHsidHlwZSI6ImZpbHRlciIsInJlc3VsdCI6
WyJmb2xsb3dsaW5rcyIsImxpbmsiXSwiZmlsdGVyVHlwZSI6InJlbWF0Y2giLCJ2
YWx1ZSI6InZpZXd0b3BpY1xcLnBocHx2aWV3Zm9ydW1cXC5waHB8dmlld3RocmVh
ZFxcLnBocHx0aHJlYWQtfGZvcnVtXFwucGhwfHNob3d0aHJlYWRcXC5waHB8Zm9y
dW1kaXNwbGF5XFwucGhwfFlhQkJcXC5wbHxZYUJCXFwuY2dpfHViYnRocmVhZHNc
XC5waHB8dWx0aW1hdGViYlxcLnBocHx1bHRpbWF0ZWJiXFwuY2dpfGluZGV4XFwu
cGhwXFw/c2hvd3RvcGljPXx0aHJlYWRzfHRvcGljfG1lbWJlcnN8bWVtYmVyXFwu
cGhwfG1lbWJlcmxpc3RcXC5waHB8cHJvZmlsZVxcLnBocHx1c2VyaW5mb1xcLnBo
cHx2aWV3dG9waWN8dmlld2ZvcnVtfHZpZXd0aHJlYWR8dG9waWN8dGhyZWFkfHNo
b3d0aHJlYWR8c2hvd3RvcGljfHNob3dmb3J1bSIsIm9wdGlvbiI6IiJ9LHsidHlw
ZSI6InVuaXF1ZSIsInJlc3VsdCI6WyJmb2xsb3dsaW5rcyIsImxpbmsiXSwidW5p
cXVlVHlwZSI6ImRvbWFpbiIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0
c0Zvcm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJl
c3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQiLCJhZGRpdGlv
bmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0
IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjp0cnVlLCJzYXZlRmFpbGVkUXVl
cmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFs
c2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMi
OmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJx
dWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmlnT3Zl
cnJpZGVzIjpbXX19
 
Подскажите, какого вида ссылки должны лежать в папке, что бы собрать перелинкованные форумы?
 
прямые ссылки на исходные топики
Так логика в том, что указав, например, одну ссылку на топик, с которого ведут 2 ссылки на другие форумы, а с тех форумов на следующие и т.д., А-парсер пройдёт с этой одной ссылки по всем ссылкам, которые исходят из этих перелинкованных топиков по всей сетке перелинковки этих постов, даже если там будет 50К форумов перелинковано?
Или мне нужно будет руками искать топики, которые, предположительно, перелинкованы и добавлять их в базу, с которой уже будет работать А-парсер?
 
пройдет по всем до указанного уровня вложенности
 
Я делаю так: парсю по кеям из ПС сырую базу, а уже по ней потом прохожусь, чтобы собрать перелинкованные топики. Forbidden, как считаете - это правильный подход?
 
Я делаю так: парсю по кеям из ПС сырую базу, а уже по ней потом прохожусь, чтобы собрать перелинкованные топики. Forbidden, как считаете - это правильный подход?

если в сырой базе в итоге преобладают перелинкованные топики - то конечно правильный :)
 
Что думаете на счёт этой темы по автоматическому сбору ссылок на перелинкованные топики, которые потом обрабатывать А-парсером? Вот более интересный вариант сбора ссылок на перелинкованные топики.
 
Последнее редактирование:
А нельзя ли чуток допилить HTML:LinkExtraktor чтобы он умел переходить по этим перелинкованным топикам до бесконечности.
На лету собрал-перешел, собрал-перешел по собранным, собрал еще, снова перешел по собранным, как то зациклить этот процесс.
На данный момент этот вариант парсит те ссылки которые ему подсовываешь, надо добится чтобы 1 ссылку с ссылками на другие топики дать а-парсеру и пошло бы дело, вот истинная задача сбора перелинкованных топиков
 
вообще то он так и делает, и ненадо ничего "допиливать"
глубина прохода регулируется параметром Parse to level
 
Просто там же максимальный уровень 100? А он имел ввиду, до бесконечности - пока сами не остановим.
 
Не пойму отчего успешные уникальные в интерфейсе одно а в файл пишет в 2 раза меньше?

Разобрался, это оно уник по строке в интерфейсе показывает, убрал галлку все верно стало.
 
Последнее редактирование:
Разобрался, это оно уник по строке в интерфейсе показывает, убрал галлку все верно стало.
верно, если включить 2 одинаковых уника в разны местах то посчитает в счетчике 2 раза, по факту сами результаты будут корректные
 
Уважаемый Forbidden, а по такому принципу не получится собирать топики, стартуя с гугла к примеру, как в этом видеоролле

 
Уважаемый Forbidden, а по такому принципу не получится собирать топики, стартуя с гугла к примеру, как в этом видеоролле

чтобы начать с гугла достаточно напарсить первичную базу с него используя парсер SE::Google SE::Google и потом использовать ее в качестве запросов для этого задания
 
  • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся
Forbidden , подскажите пожалуйста как правильно составить шаблон, что бы сохранялись только ссылки без названий топиков ? вроде должно быть просто, но что то не выходит.

в файле получаются ссылки такого вида:

http://site.com/.... + keyword
или даже такие
http://site.com/.... + http://site.com/....
 
Назад
Верх