1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Вопрос по парсингу сайтов (доменов)

Тема в разделе "Делимся опытом", создана пользователем Iura, 11 сен 2015.

  1. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0
    Здравствуйте.
    У нас есть список сайтов с новой строки все они вида http://site.com

    На нужно "прогнать" весь список сайтов и получить на выходе домены с https и www на тех. доменах на которых они есть
    Пример:
    https://site.com
    https://www.site.com
    http://www.site.com

    Скажите пожалуйста каким парсером это можно сделать?

    Если простыми словами то загоняем домены в парсер вида http://site.com, разрешаем всевозможные редиректы и когда редиректы закончились выдергиваем результат домена куда привели редиректы и записываем их в файл.

    Подскажите чем такое можно реализовать?
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Добрый день.
    Нужно использовать Net::HTTP Net::HTTP, а в результат выводить $response.URI, при этом также фильтруя по [% response.URI %], выбрав в фильтре Custom Template.
    [​IMG]
     
    Iura нравится это.
  3. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0
    Спасибо! Но такое работает только с https://www. а нужно чтобы работало и с http://www
     
  4. LmPopo

    LmPopo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 янв 2013
    Сообщения:
    88
    Симпатии:
    26
    Заменить регулярку в фильтрах на ^https?://www
     
    Iura и Support нравится это.
  5. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0
    Опять же не все сайты срабатывают - пример:
    11/09 12:50:17
    Parser Net::HTTP::0 parse query http://alexhost.md/
    11/09 12:50:17
    Wait for proxy
    11/09 12:50:17
    Use proxy socks://91.200.82.109:1085
    11/09 12:50:19
    GET(1): https://alexhost.md/ - 200 OK (5.07 KB)
    11/09 12:50:19
    Decode from utf-8(meta http-equiv)
    11/09 12:50:19
    Parse response: 1
    11/09 12:50:19
    Thread complete work
    11/09 12:50:19



    Выдает пустой результат
     
  6. LmPopo

    LmPopo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 янв 2013
    Сообщения:
    88
    Симпатии:
    26
    По первому посту и я не понял, что нужно получить все редиректные домены, думал обязательное условие https и www.
    Можно так тогда, Regex not match ^[% query %]/?$:
    [​IMG]
     
  7. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Поясните на примерах что вы задаете в запросе, и что нужно получить в результате.
     
  8. Gerero

    Gerero A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 янв 2014
    Сообщения:
    19
    Симпатии:
    4
    Столкнулся с похожей задачей и чтобы не плодить темы решил написать здесь.

    Итак, есть список урлов, нужно проверить есть редирект на них или нет.
    Соответственно, результаты проверки необходимо записать в 2 файла:
    no.txt - нет редиректа, формат: проверяемый урл
    yes.txt - есть редирект, формат: проверяемый урл|конечный урл
     
  9. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
    InBhcnNlcnMiOltbIk5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6Im92ZXJy
    aWRlIiwiaWQiOiJvbmx5aGVhZGVycyIsInZhbHVlIjp0cnVlfV1dLCJyZXN1bHRz
    Rm9ybWF0IjoiWyUgSUYgcDEucmVzcG9uc2UuUmVkaXJlY3RzLnNpemUgPiAwO1xu
    cXVlcnkgX1wifFwiXyBwMS5yZXNwb25zZS5VUkkgX1wiXFxuXCI7XG5FTFNFO1xu
    cXVlcnkgX1wiXFxuXCI7XG5FTkQgJV0iLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIs
    InJlc3VsdHNGaWxlTmFtZSI6IlslIElGIHAxLnJlc3BvbnNlLlJlZGlyZWN0cy5z
    aXplID4gMDtcblwieWVzLnR4dFwiO1xuRUxTRTtcblwibm8udHh0XCI7XG5FTkQg
    JV0iLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIs
    InF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwi
    c2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25B
    bGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFs
    c2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ci
    OiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVz
    dWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVy
    cyI6W10sInJlc3VsdHNCdWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119
    fQ==
     
    d4k, vipuncle, LmPopo и ещё 1-му нравится это.
  10. Gerero

    Gerero A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 янв 2014
    Сообщения:
    19
    Симпатии:
    4
    Спасибо. Саппорт как всегда на высоте!
     
    LmPopo и Support нравится это.

Поделиться этой страницей