1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг социальной сети "Мой мир"

Тема в разделе "Техническая поддержка", создана пользователем poiskspider, 15 дек 2016.

  1. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Собственно вопрос в названии темы. Можно ли такое реализовать, если в Мой мир можно зайти только под логином своей почты?
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Смотря что нужно парсить. Основная информация вроде доступна без авторизации и парсить ее скорее всего не сложно: Net::HTTP и регулярки.
    А то, что требует авторизации - в теории можно парсить также, только подставив куки авторизации из браузера.
     
  3. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    На практике все не так просто. То что нужно парсить не доступно без авторизации. А именно нужна такая последовательность действий:

    Есть список групп в текстовом формате

    С каждой группы нужно спарсить всех участников, а после с каждого участника забрать его email. вот с этого поля

    moy_mir.jpg
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Насчет парсинга участников групп - да, требуется авторизация. Как парсить с авторизацией - я выше написал:
    Хотя там есть еще один способ. Если детально проанализировать процесс авторизации, то можно увидеть, что можно авторизоваться одним POST-запросом с редиректом на нужную страницу участников. И оттуда регуляркой уже их забирать.
    А мейлы видны и без авторизации. Кстати, вроде бы имя пользователя в Мой мир и мейл - это одно и то же...
     

Поделиться этой страницей