1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Сбор перелинкованных топиков 1.0

Сбор перелинкованных топиков

  1. Sobesednic

    Sobesednic A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 сен 2014
    Сообщения:
    44
    Симпатии:
    14
    Можно пример, как правильно настроить а то не получается что то, пробовал по разному.

    [​IMG]
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    что именно не получается? В тесте в принципе не будет никуда переходить потому что это тест
     
  3. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Вот дополненный вариант:
    [​IMG]

    Алгоритм работы:
    • Переходим только по внешним ссылкам
    • Фильтруем ссылки для перехода по признакам форумов
    • Добавляем уникализацию по домену
    • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся
    Код:
    eyJwcmVzZXQiOiJcdTA0MjFcdTA0MzFcdTA0M2VcdTA0NDAgXHUwNDNmXHUwNDM1
    XHUwNDQwXHUwNDM1XHUwNDNiXHUwNDM4XHUwNDNkXHUwNDNhXHUwNDNlXHUwNDMy
    XHUwNDMwXHUwNDNkXHUwNDNkXHUwNDRiXHUwNDQ1IFx1MDQ0Mlx1MDQzZVx1MDQz
    Zlx1MDQzOFx1MDQzYVx1MDQzZVx1MDQzMiIsInZhbHVlIjp7InBhcnNlcnMiOltb
    IkhUTUw6OkxpbmtFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJvcHRpb25z
    IiwiaWQiOiJwYXJzZUxldmVsIiwidmFsdWUiOjEwfSx7InR5cGUiOiJvdmVycmlk
    ZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiIkZm9sbG93bGlua3MuZm9y
    bWF0KCckbGluayAkYW5jaG9yXFxuJykifSx7InR5cGUiOiJvdmVycmlkZSIsImlk
    IjoiZm9sbG93IiwidmFsdWUiOjJ9LHsidHlwZSI6ImZpbHRlciIsInJlc3VsdCI6
    WyJmb2xsb3dsaW5rcyIsImxpbmsiXSwiZmlsdGVyVHlwZSI6InJlbWF0Y2giLCJ2
    YWx1ZSI6InZpZXd0b3BpY1xcLnBocHx2aWV3Zm9ydW1cXC5waHB8dmlld3RocmVh
    ZFxcLnBocHx0aHJlYWQtfGZvcnVtXFwucGhwfHNob3d0aHJlYWRcXC5waHB8Zm9y
    dW1kaXNwbGF5XFwucGhwfFlhQkJcXC5wbHxZYUJCXFwuY2dpfHViYnRocmVhZHNc
    XC5waHB8dWx0aW1hdGViYlxcLnBocHx1bHRpbWF0ZWJiXFwuY2dpfGluZGV4XFwu
    cGhwXFw/c2hvd3RvcGljPXx0aHJlYWRzfHRvcGljfG1lbWJlcnN8bWVtYmVyXFwu
    cGhwfG1lbWJlcmxpc3RcXC5waHB8cHJvZmlsZVxcLnBocHx1c2VyaW5mb1xcLnBo
    cHx2aWV3dG9waWN8dmlld2ZvcnVtfHZpZXd0aHJlYWR8dG9waWN8dGhyZWFkfHNo
    b3d0aHJlYWR8c2hvd3RvcGljfHNob3dmb3J1bSIsIm9wdGlvbiI6IiJ9LHsidHlw
    ZSI6InVuaXF1ZSIsInJlc3VsdCI6WyJmb2xsb3dsaW5rcyIsImxpbmsiXSwidW5p
    cXVlVHlwZSI6ImRvbWFpbiIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0
    c0Zvcm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJl
    c3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQiLCJhZGRpdGlv
    bmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0
    IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjp0cnVlLCJzYXZlRmFpbGVkUXVl
    cmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFs
    c2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMi
    OmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJx
    dWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmlnT3Zl
    cnJpZGVzIjpbXX19
     
    murl, stive84, zhabka и 8 другим нравится это.
  4. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    Подскажите, какого вида ссылки должны лежать в папке, что бы собрать перелинкованные форумы?
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    прямые ссылки на исходные топики
     
  6. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    Так логика в том, что указав, например, одну ссылку на топик, с которого ведут 2 ссылки на другие форумы, а с тех форумов на следующие и т.д., А-парсер пройдёт с этой одной ссылки по всем ссылкам, которые исходят из этих перелинкованных топиков по всей сетке перелинковки этих постов, даже если там будет 50К форумов перелинковано?
    Или мне нужно будет руками искать топики, которые, предположительно, перелинкованы и добавлять их в базу, с которой уже будет работать А-парсер?
     
  7. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    пройдет по всем до указанного уровня вложенности
     
    Malchishka нравится это.
  8. vipdenya

    vipdenya A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 июл 2014
    Сообщения:
    57
    Симпатии:
    9
    Я делаю так: парсю по кеям из ПС сырую базу, а уже по ней потом прохожусь, чтобы собрать перелинкованные топики. Forbidden, как считаете - это правильный подход?
     
  9. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    если в сырой базе в итоге преобладают перелинкованные топики - то конечно правильный :)
     
  10. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    Что думаете на счёт этой темы по автоматическому сбору ссылок на перелинкованные топики, которые потом обрабатывать А-парсером? Вот более интересный вариант сбора ссылок на перелинкованные топики.
     
    #10 Malchishka, 3 дек 2014
    Последнее редактирование: 3 дек 2014
  11. aquatell

    aquatell A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2012
    Сообщения:
    150
    Симпатии:
    43
    А нельзя ли чуток допилить HTML:LinkExtraktor чтобы он умел переходить по этим перелинкованным топикам до бесконечности.
    На лету собрал-перешел, собрал-перешел по собранным, собрал еще, снова перешел по собранным, как то зациклить этот процесс.
    На данный момент этот вариант парсит те ссылки которые ему подсовываешь, надо добится чтобы 1 ссылку с ссылками на другие топики дать а-парсеру и пошло бы дело, вот истинная задача сбора перелинкованных топиков
     
  12. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    вообще то он так и делает, и ненадо ничего "допиливать"
    глубина прохода регулируется параметром Parse to level
     
  13. jasonnevins

    jasonnevins A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    14 ноя 2013
    Сообщения:
    7
    Симпатии:
    0
    Просто там же максимальный уровень 100? А он имел ввиду, до бесконечности - пока сами не остановим.
     
  14. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    100 это очень много
     
  15. qazwsxedc

    qazwsxedc A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 ноя 2012
    Сообщения:
    99
    Симпатии:
    15
    Не пойму отчего успешные уникальные в интерфейсе одно а в файл пишет в 2 раза меньше?

    Разобрался, это оно уник по строке в интерфейсе показывает, убрал галлку все верно стало.
     
    #15 qazwsxedc, 8 апр 2015
    Последнее редактирование: 9 апр 2015
  16. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    верно, если включить 2 одинаковых уника в разны местах то посчитает в счетчике 2 раза, по факту сами результаты будут корректные
     
  17. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    Уважаемый Forbidden, а по такому принципу не получится собирать топики, стартуя с гугла к примеру, как в этом видеоролле

     
  18. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    чтобы начать с гугла достаточно напарсить первичную базу с него используя парсер SE::Google SE::Google и потом использовать ее в качестве запросов для этого задания
     
    BESHENEI нравится это.
  19. List

    List A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    1 май 2015
    Сообщения:
    11
    Симпатии:
    6
    Forbidden , подскажите пожалуйста как правильно составить шаблон, что бы сохранялись только ссылки без названий топиков ? вроде должно быть просто, но что то не выходит.

    в файле получаются ссылки такого вида:

    http://site.com/.... + keyword
    или даже такие
    http://site.com/.... + http://site.com/....
     
  20. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.375
    Симпатии:
    2.105
    Необходимо немного изменить формат вывода:
    Код:
    $followlinks.format('$link\n')
     
    DeLaKroiX и List нравится это.

Поделиться этой страницей