1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Cбор внешних ссылок через LinkExtractor и проверка через Whois

Тема в разделе "Делимся опытом", создана пользователем Михаил666, 18 ноя 2024.

Метки:
  1. Михаил666

    Михаил666 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    16 сен 2024
    Сообщения:
    2
    Симпатии:
    1
    Добрый день !
    прошу помочь с настройками парсинга
    необходимо вытащить все уникальные внешние ссылки с сайта, cократить их оставив лишь домен и проверить через Whois
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.590
    Симпатии:
    2.177
    Добрый день
    Решается двумя пресетами:

    1) Парсинг внешних доменов: HTML::LinkExtractor HTML::LinkExtractor для сбора ссылок + Parse to level для прохода в глубину + Конструктор результатов для извлечения только доменов и вывод их в результат. Также лучше включить уникализацию запросов и уникализацию результатов для исключения дублей.
    Код:
    eJx9VMlu2zAQ/ZeBgTSAYDuHXHRz3Bht4URp4pycHBhr5LKmSJaLY0PQv3dIbXYa
    9KZZ3pvtiRU4Znf2waBFZyFdV6DjN6SQY8G8cJCAZsaiCeE1fFvdLdN0yeXu9uAM
    2zhlKKPPrcAdNRJaaceVtBTjOZmRYol7FOTZM+Ep52qaAMtzHhKZgLQCwUseSk+h
    rk+o9mgMz7Hjsv7tqyoZj+wtlzMe/wMxuPHUwJAP11C/viYUsNS3XShTslB5pK/G
    eHCC5rPjInq/XIyC+fIiLy6hRzyxPa4UIQoucHAvyLpnZagwypnDEO14LsfuENY5
    zNyUDYsdWnmW/E/s0DrD5ZbyyTQc7cKoktwOI0lwHru21zCKNhCNj/ifDaZZTAKW
    ul0w6iXvAwUTliLcoWF0xKy9F11ByZkQ8VZDWqS/8VzkJIRZQaDvLfDzlOwfjrqf
    8LQU3endUA89S7RusrsBlaul2gY9vtHYUSFk27nyspFKAjtE3a/tXpGnVAb7Mi1z
    W520rlEGUQxXm+nBdTbG2WVOnBVY5c2G6q2nyRo6xcQG5Q6CslolYvOXrJRuNBvu
    bww7NqEO5YKSIrQm6EbJgm+zVsNdE16u6F/N5FyVWmBYmfRC0MEtPg7im9n2wsEY
    Zv8InscSZ3+5U0rYH0/NFrTh1NJ1mL2kI51WbSk3TIjnx+VpJACtUzqTt8Z8UEbU
    HPxyTtt0MnnnO64x52yszHYCgc3hVpGCadawgvbJ6R+m6tOHJ63onYDf9qHJDiOH
    XPLR7ixdnx6Z+i8YMbXV

    2) Проверка через Net::Whois Net::Whois: в примере проверяется регистрация домена и фильтруются только те, которые не зарегистрированы. Вы можете изменить на нужную вам логику. В качестве запросов нужно подать файл с доменами, полученный в 1-м задании.
    Код:
    eJxtU99v0zAQ/l+sPYC0jkViEoq0h66iEqg0Y+vEQ1chM1+KmePzfE5givq/c3bS
    pC28+X5933e+u1YESc9064EgkMjXrXDpLXKhoJS1CeJcOOkJfAyvxRJCnn/7iZo4
    MKS0Irw64KJSmwCeQ4wSIzk/tprYB4q9XXjV5V5fs6eRpo7GJb/RBY2WDQJLYrfZ
    7GFojr6SEe3spQb/+vhoBwq6lw2ssOOG0T1naymriH2mZIAYvSgTzpu3F+FPbEwq
    pSOlNB1BbHEkfbD6JWmzyLmRWAPNPVYjV1KzF7fu1QmGqFPt165G5KU0BOeCWOpc
    cqk6jWj+FhnQF+kL2N8KtFNjFtCAGdMS/k2tjeJ5TEsu+tQX/j+l+AdjN7R3SNWA
    /+1Zw4CSrJviy1ilcIHbuBY/uG+jKx3YphnWNvTjewZww58t459V6GGg6ZF7dl45
    B1Zx5jiyqRtdR20cjeXY+YS21NuCG/BawT6ztive68LOsHIGYl+2NobHQnA3rseU
    +jFEYxR4WjxLFEcXERANfb7vpDqvef2uosCKf/KQtYd8ksY83C0OI7GQArrCfvT+
    ZHyDovW+53cWm0n24Xv2fpJdTrKrtL+xe17sLfLKcdu7zXCpwz23h/eatzue4y+6
    7ZIiRXLyEbKZLi/b/QU4721o
     
  3. Михаил666

    Михаил666 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    16 сен 2024
    Сообщения:
    2
    Симпатии:
    1
    Благодарю !)
     
    Support нравится это.

Поделиться этой страницей