1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парс мейлов.

Тема в разделе "Делимся опытом", создана пользователем bOOOmERok, 15 дек 2014.

  1. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    Добрый день. Подскажите новичку как это правильно организовать?
    Видел подобные решения. Но мне показалось что они мне не подойдут. Ну по крайней мере не все решения.
    У меня есть список сайтов, но только главных страниц, как мне правильно задать чтобы искал мейл на странице контакты или о нас и т.д. Просто если по регуллярке собирать, то мейл может быть и на главной странице в контенте, а мне нужен только со страницы с контактами.
    Спасибо
     
  2. Sobesednic

    Sobesednic A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 сен 2014
    Сообщения:
    44
    Симпатии:
    14
  3. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    Спасибо за ответ.

    Но там простой парс в гугле всех страниц где есть контакты. У меня уже есть список сайтов с которых нужно взять мейл. вот проблема как на заданом сайте найти эту страницу?У кого-то она contacs или aboutus или еще как то там?
     
  4. Sobesednic

    Sobesednic A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 сен 2014
    Сообщения:
    44
    Симпатии:
    14
  5. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    ну были такие мысли у меня. Мне надо будет глубину прохода установить как 1? Чтобы пройтись только по всем ссылкам с заданой страницы?

    А нельзя будет еще к этому действию добавить еще чтобы искало мейл по регулярке? А то будет очень долго это все в два этапа делать.

    Видел есть функция use pages, где можно ходить по сайту. Думал через нее, но она почему то не появляется. Хотя раньше пробовал ее и запускалась.
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    можно, все в один проход получится: сразу парсим $data регуляркой

    эта функция есть, но она создана для других целей. чтобы просто пройтись вглубь по сайту необходимо использовать опцию Parse to level
     
  7. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    Спасибо за ответ.

    Получилось все сделать в одном проходе. Но в таком случае будут собраны все мейлы, даже если он просто указаны в контенте. Как мне выделить только контактный? Сайтов много всяких. У кого это отдельная страница, у кого просто в футере указан.
    Что то не могу придумать как это обойти...
     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    дополнительно фильтровать по содержимому - например $data Regex match <title>[^<]*?(?:контакты|связь), либо по ссылке - $query Regex match contant|about и т.п.
     
  9. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    А куда это подставить?

    Вот мой пример
    aparser.jpg

    И еще вопрос, а можно результат записывать в 2 файла? например парс 1 в 1-й файл, а результат 2-го в другой? Т.к. результат первого в будущем надо будет.
     
    #9 bOOOmERok, 16 дек 2014
    Последнее редактирование: 16 дек 2014
  10. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    С этим решил, просто добавил еще один результат и в параметре указал результат парса 1.

    А вот с фильтром по контактам пока нет((. Подскажите, куда и как правильно сделать запись.
     
  11. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    [​IMG]

    вот пример с фильтрации ссылок по которым переходим по анкору
     
    bOOOmERok нравится это.
  12. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    Спасибо. Попробую еще Ваш вариант.
     
  13. jasonnevins

    jasonnevins A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    14 ноя 2013
    Сообщения:
    7
    Симпатии:
    0
    Что-то не сработало у меня + у меня не $data - Content data, a Raw data.
    Можете скинуть пресет готовый ? Спасибо.

    [​IMG]
     
  14. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siSFRNTDo6
    TGlua0V4dHJhY3RvciIsImRlZmF1bHQiLHsidHlwZSI6ImN1c3RvbVJlc3VsdCIs
    InJlc3VsdCI6ImRhdGEiLCJyZWdleCI6IigoPz5cXGJbLWEtejAtOS5fJStdKylA
    W2EtejAtOS4tXStcXC5bYS16XXsyLDZ9KVxcYiIsInJlZ2V4VHlwZSI6ImlnIiwi
    cmVzdWx0VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoibWFpbHMiLCJyZXN1bHRz
    IjpbIm1haWwiXX0seyJ0eXBlIjoidW5pcXVlIiwicmVzdWx0IjpbIm1haWxzIiwi
    bWFpbCJdLCJ1bmlxdWVUeXBlIjoic3RyaW5nIiwidW5pcXVlR2xvYmFsIjp0cnVl
    fSx7InR5cGUiOiJvcHRpb25zIiwiaWQiOiJwYXJzZUxldmVsIiwidmFsdWUiOjF9
    LHsidHlwZSI6ImZpbHRlciIsInJlc3VsdCI6WyJmb2xsb3dsaW5rcyIsImFuY2hv
    ciJdLCJmaWx0ZXJUeXBlIjoicmVtYXRjaCIsInZhbHVlIjoiXHUwNDQxXHUwNDMy
    XHUwNDRmXHUwNDM3XHUwNDRjfFx1MDQzYVx1MDQzZVx1MDQzZFx1MDQ0Mlx1MDQz
    MFx1MDQzYVx1MDQ0Mlx1MDQ0YnxcdTA0M2ZcdTA0M2VcdTA0MzRcdTA0MzRcdTA0
    MzVcdTA0NDBcdTA0MzZcdTA0M2FcdTA0MzAiLCJvcHRpb24iOiJpIn1dXSwicmVz
    dWx0c0Zvcm1hdCI6IiRwMS5tYWlscy5mb3JtYXQoJyRxdWVyeXwkbWFpbFxcbicp
    IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJEZWMt
    MTdfMTAtNDgtNDMudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRz
    VW5pcXVlIjoibm8iLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVl
    cmllcyI6dHJ1ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9w
    dGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBV
    bmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQi
    OiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3Vs
    dHNCdWlsZGVycyI6W3sic291cmNlIjpbMCxbIm1haWxzIiwibWFpbCJdXSwidHlw
    ZSI6ImxjIiwiYXJyYXkiOiJtYWlscyIsInRvIjoibWFpbCJ9XSwiY29uZmlnT3Zl
    cnJpZGVzIjpbXX19

    обновись на последнюю версию
     

Поделиться этой страницей