1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 1500+ и мы растем!
    Скрыть объявление

Пресет Собираем 1.65 миллиона email со страниц контактов за 2.5 часа 1.0

Собираем 1.65 миллиона email со страниц контактов за 2.5 часа

  1. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.262
    Симпатии:
    1.748
    1. Первым делом соберем парсером SE::Google SE::Google ссылки на страницы с контактами:

    [​IMG]

    • Выбираем пресет 1000 Links use Proxy, который сохраняет ссылки по запросу с максимальной глубиной
    • Добавляем уникализацию ссылок по домену
    • Указываем ключевую фразу "контакты"
    • Добавляем 2 формата результата чтобы размножить запросы и получить большое число результатов
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siU0U6Okdv
    b2dsZSIsIjEwMDAgTGlua3MgdXNlIFByb3h5Iix7InR5cGUiOiJ1bmlxdWUiLCJy
    ZXN1bHQiOlsic2VycCIsImxpbmsiXSwidW5pcXVlVHlwZSI6ImRvbWFpbiIsInVu
    aXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0c0Zvcm1hdCI6IiRwMS5wcmVzZXQi
    LCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6Imxpbmtz
    LWNvbnRhY3RzLU9jdC0wNl8wOC0yOS01OS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0
    cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVy
    eSB7YXo6YTp6enp9IiwiJHF1ZXJ5IHtudW06MToxMDAwMH0iXSwidW5pcXVlUXVl
    cmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JP
    cHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVw
    VW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5k
    IjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1
    bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfSwicGFyc2Vyc0Nv
    bmZQcmVzZXRzIjp7IlNFOjpHb29nbGUiOnsiMTAwMCBMaW5rcyB1c2UgUHJveHki
    OnsicXVlcnlmb3JtYXQiOiIkcXVlcnkiLCJwYXJzZW5vdGZvdW5kIjp0cnVlLCJn
    bCI6IiIsInBhZ2Vjb3VudCI6IjEwIiwiZG9fZ3ppcCI6dHJ1ZSwiZG9tYWluIjoi
    d3d3Lmdvb2dsZS5jb20iLCJ0aW1lb3V0IjoiNjAiLCJ1c2Vwcm94eSI6dHJ1ZSwi
    YW50aWdhdGVwcmVzZXQiOiJkZWZhdWx0IiwiZXh0cmFxdWVyeSI6IiIsImxvY2F0
    aW9uIjoiIiwidXNlc2Vzc2lvbnMiOnRydWUsInNlcnB0aW1lIjoiIiwibGlua3Nw
    ZXJwYWdlIjoiMTAwIiwiZmlsdGVyIjp0cnVlLCJzZXJwIjoiIiwidXNlYW50aWdh
    dGUiOmZhbHNlLCJwcm94eXJldHJpZXMiOiIxNSIsInJlcXVlc3RkZWxheSI6IjAi
    LCJwcm94eWJhbm5lZGNsZWFudXAiOiI2MDAiLCJmb3JtYXRyZXN1bHQiOiIkc2Vy
    cC5mb3JtYXQoJyRsaW5rXFxuJykiLCJyYXdkYXRhIjowLCJsciI6IiIsInVzZWNh
    cHRjaGFraWxsZXIiOmZhbHNlLCJtYXhfc2l6ZSI6IjIwNDgwMCJ9fX19

    В результате получим базу содержащую 1663086 ссылок на страницы контактов различных сайтов:

    [​IMG]

    2. По собранным ссылкам с помощью парсера Net::HTTP Net::HTTP и регулярного выражения собираем email адреса:

    [​IMG]

    • Отключаем использование прокси
    • С помощью опции Parse custom result указываем регулярное выражение ((?>\b[-a-z0-9._%+]+)@[a-z0-9.-]+\.[a-z]{2,6})\b для сбора email адресов из исходного кода страницы - $data
    • Добавляем приведение результата к нижнему регистру и уникализацию по строке
    • В качестве запросов указываем базу ссылок, собранную в первом задании
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siTmV0OjpI
    VFRQIiwiZGVmYXVsdCIseyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5
    IiwidmFsdWUiOmZhbHNlfSx7InR5cGUiOiJjdXN0b21SZXN1bHQiLCJyZXN1bHQi
    OiJkYXRhIiwicmVnZXgiOiIoKD8+XFxiWy1hLXowLTkuXyUrXSspQFthLXowLTku
    LV0rXFwuW2Etel17Miw2fSlcXGIiLCJyZWdleFR5cGUiOiJpZyIsInJlc3VsdFR5
    cGUiOiJhcnJheSIsImFycmF5TmFtZSI6Im1haWxzIiwicmVzdWx0cyI6WyJtYWls
    Il19LHsidHlwZSI6InVuaXF1ZSIsInJlc3VsdCI6WyJtYWlscyIsIm1haWwiXSwi
    dW5pcXVlVHlwZSI6InN0cmluZyIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVz
    dWx0c0Zvcm1hdCI6IiRwMS5tYWlscy5mb3JtYXQoJyRtYWlsXFxuJykiLCJyZXN1
    bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5m
    b3JtYXQoKS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlx
    dWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVz
    IjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlv
    bnMiOnsib25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlx
    dWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIi
    LCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNC
    dWlsZGVycyI6W3sic291cmNlIjpbMCxbIm1haWxzIiwibWFpbCJdXSwidHlwZSI6
    ImxjIiwiYXJyYXkiOiJtYWlscyIsInRvIjoibWFpbCJ9XSwiY29uZmlnT3ZlcnJp
    ZGVzIjpbXX19

    В результате получаем базу содержащую 1647115 уникальных email адресов:

    [​IMG]

    • Средняя скорость обработки составила 12000 ссылок в минуту
    • ТОП-10 почтовых доменов:
    Код:
    249772 mail.ru
    129894 gmail.com
    91901 yandex.ru
    25625 rambler.ru
    20821 bk.ru
    19773 hotmail.com
    14656 yahoo.com
    14117 list.ru
    13636 inbox.ru
    11670 ukr.net
    
     
    Max, Alex108, Parsan и ещё 1-му нравится это.
  2. Gerero

    Gerero A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 янв 2014
    Сообщения:
    18
    Симпатии:
    4
    А как/чем собирается статистика по доменам?
     
  3. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.262
    Симпатии:
    1.748
    Простую статистику удобно строить в консоли:
    Код:
    cat Nov-05_07-22-23.txt | awk -F '@' '{print $2}' | sort | uniq -c | sort -r -n | head -n 10
     
    Metroid и Gerero нравится это.
  4. andreyz

    andreyz A-Parser Pro License
    A-Parser Pro

    Регистрация:
    26 июн 2014
    Сообщения:
    17
    Симпатии:
    0
    А как бы потом несколько баз с email адресами объединить и почистить от дублей? может подскажите способ? получается ну так примерно 300mb файлик
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.262
    Симпатии:
    1.748
    не заметил сообщения, если речь про Linux то все просто:
    Код:
    cat base1.txt base2.txt base3.txt | sort -u > final.txt
     
  6. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    А это у вас ушло только на сбор "мыла" 2,5 часа? или еще и на парс ссылок?
     
  7. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.262
    Симпатии:
    1.748
    парс ссылок 40 минут
     
  8. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    Использовав ваш пресет по поиску ссылок, у меня вопрос, а как у вас получилось что уник.рез. больше за всего (у меня все наоборот)? И как добились такой высокой скорости (общая у вас больше 600. У меня больше 150 не было).
     
  9. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.262
    Симпатии:
    1.748
    это просто баг в подсчете был на той версии

    все зависит от прокси и числа потоков
     
  10. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    201
    Симпатии:
    18
  11. LmPopo

    LmPopo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 янв 2013
    Сообщения:
    89
    Симпатии:
    26
    Дык в исходном коде нет:
    Код:
    <b style="font-size: 15px; color: #0000FF;">عندي حل ليك يا اخي<br />
    تواصل معي 00201223781307 علي الوتس اب <br />
    <a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="3051585d55546f555e55425749444251545570585f445d51595c1e535f5d">[email&#160;protected]</a><script cf-hash='f9e31' type="text/javascript">
     
    #11 LmPopo, 29 янв 2015
    Последнее редактирование: 29 янв 2015
  12. bOOOmERok

    bOOOmERok New Member

    Регистрация:
    15 дек 2014
    Сообщения:
    21
    Симпатии:
    0
    Email зашифрован скриптом. Посмотрите строки 3150-3152.
     
  13. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    201
    Симпатии:
    18
    понятно, спасибо.
     
  14. elektrowin

    elektrowin New Member

    Регистрация:
    16 фев 2016
    Сообщения:
    1
    Симпатии:
    0
    добрый день! есть одна просьба, у меня есть список id пользователей вконтакте (прикрепил), необходимо собрать ссылки на их аватары в виде

    http://vk.com/photo-34241068_366806950
    http://vk.com/photo-33221068_362285846
    http://vk.com/photo-34541068_362263734
    http://vk.com/photo-36941068_361083784
    http://vk.com/photo-36941068_360894480
    http://vk.com/photo-36455068_360104208
    http://vk.com/photo-36141068_360104050
    http://vk.com/photo-34341068_357306856

    сам зеленый в этом деле( буду очень благодарен если спарсите , спасибо!!!
     
  15. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.262
    Симпатии:
    1.748
    Добрый день, мы не занимаемся парсингом на заказ
    Мы можем помочь составить задание(бесплатно или платно в зависимости от ситуации), но для этого необходимо приобрести лицензию на A-Parser
     
  16. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    3.222
    Симпатии:
    1.786
  17. helick2

    helick2 New Member

    Регистрация:
    26 окт 2016
    Сообщения:
    1
    Симпатии:
    1
    как парсить сайт на котором стоит CloudFlare Scrape Shield ??

    пытался собрать emails с одного сайта
    пробовал proxy, emulate broswer headers, googlebot useragent - все время получаю 403
    пока решил задачу только парсингом из кэша google

    стоит защита от CloudFlare
    нашел такую инфу
    "CloudFlare в конкретно этом случае использует хэш, ключ и случайный javascript-код, который браузер исполняет (вычисление нескольких арифметических действий, с виду выглядящих как обфусцированный мусор) и позже отсылает получившееся число вместе с хэшем и ключом на страницу проверки. Наша задача, таким образом — перехватить javascript-задание, решить его любым способом и спросить, правильна ли наша отгадка. Если да — получаем плюшку (куки cf_clearance). Если нет — получаем 503."

    как а-парсер может побороть такое препятствие?
     
    Forbidden нравится это.
  18. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    3.222
    Симпатии:
    1.786
  19. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.262
    Симпатии:
    1.748
    начиная с версии 1.1.672 парсер обходит защиту автоматически http://a-parser.com/threads/2784/
     
    Metroid и helick2 нравится это.
  20. Князь12

    Князь12 New Member

    Регистрация:
    6 май 2017
    Сообщения:
    2
    Симпатии:
    0
    А можно парсить статьи с другого сайта? Это как-то настраивается в админке? С сайта на какой cms можно будет парсить?
     

Поделиться этой страницей