Массовый сбор e-mail

Пресет Собираем 1.65 миллиона email со страниц контактов за 2.5 часа 1.0

Available for license holders

Forbidden

Administrator
Команда форума
A-Parser Enterprise
1. Первым делом соберем парсером SE::Google SE::Google ссылки на страницы с контактами:

rPSQm.png


  • Выбираем пресет 1000 Links use Proxy, который сохраняет ссылки по запросу с максимальной глубиной
  • Добавляем уникализацию ссылок по домену
  • Указываем ключевую фразу "контакты"
  • Добавляем 2 формата результата чтобы размножить запросы и получить большое число результатов
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siU0U6Okdv
b2dsZSIsIjEwMDAgTGlua3MgdXNlIFByb3h5Iix7InR5cGUiOiJ1bmlxdWUiLCJy
ZXN1bHQiOlsic2VycCIsImxpbmsiXSwidW5pcXVlVHlwZSI6ImRvbWFpbiIsInVu
aXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0c0Zvcm1hdCI6IiRwMS5wcmVzZXQi
LCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6Imxpbmtz
LWNvbnRhY3RzLU9jdC0wNl8wOC0yOS01OS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0
cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVy
eSB7YXo6YTp6enp9IiwiJHF1ZXJ5IHtudW06MToxMDAwMH0iXSwidW5pcXVlUXVl
cmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JP
cHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVw
VW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5k
IjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1
bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfSwicGFyc2Vyc0Nv
bmZQcmVzZXRzIjp7IlNFOjpHb29nbGUiOnsiMTAwMCBMaW5rcyB1c2UgUHJveHki
OnsicXVlcnlmb3JtYXQiOiIkcXVlcnkiLCJwYXJzZW5vdGZvdW5kIjp0cnVlLCJn
bCI6IiIsInBhZ2Vjb3VudCI6IjEwIiwiZG9fZ3ppcCI6dHJ1ZSwiZG9tYWluIjoi
d3d3Lmdvb2dsZS5jb20iLCJ0aW1lb3V0IjoiNjAiLCJ1c2Vwcm94eSI6dHJ1ZSwi
YW50aWdhdGVwcmVzZXQiOiJkZWZhdWx0IiwiZXh0cmFxdWVyeSI6IiIsImxvY2F0
aW9uIjoiIiwidXNlc2Vzc2lvbnMiOnRydWUsInNlcnB0aW1lIjoiIiwibGlua3Nw
ZXJwYWdlIjoiMTAwIiwiZmlsdGVyIjp0cnVlLCJzZXJwIjoiIiwidXNlYW50aWdh
dGUiOmZhbHNlLCJwcm94eXJldHJpZXMiOiIxNSIsInJlcXVlc3RkZWxheSI6IjAi
LCJwcm94eWJhbm5lZGNsZWFudXAiOiI2MDAiLCJmb3JtYXRyZXN1bHQiOiIkc2Vy
cC5mb3JtYXQoJyRsaW5rXFxuJykiLCJyYXdkYXRhIjowLCJsciI6IiIsInVzZWNh
cHRjaGFraWxsZXIiOmZhbHNlLCJtYXhfc2l6ZSI6IjIwNDgwMCJ9fX19

В результате получим базу содержащую 1663086 ссылок на страницы контактов различных сайтов:

RbD5M.png


2. По собранным ссылкам с помощью парсера Net::HTTP Net::HTTP и регулярного выражения собираем email адреса:

010kg.png


  • Отключаем использование прокси
  • С помощью опции Parse custom result указываем регулярное выражение ((?>\b[-a-z0-9._%+]+)@[a-z0-9.-]+\.[a-z]{2,6})\b для сбора email адресов из исходного кода страницы - $data
  • Добавляем приведение результата к нижнему регистру и уникализацию по строке
  • В качестве запросов указываем базу ссылок, собранную в первом задании
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siTmV0OjpI
VFRQIiwiZGVmYXVsdCIseyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5
IiwidmFsdWUiOmZhbHNlfSx7InR5cGUiOiJjdXN0b21SZXN1bHQiLCJyZXN1bHQi
OiJkYXRhIiwicmVnZXgiOiIoKD8+XFxiWy1hLXowLTkuXyUrXSspQFthLXowLTku
LV0rXFwuW2Etel17Miw2fSlcXGIiLCJyZWdleFR5cGUiOiJpZyIsInJlc3VsdFR5
cGUiOiJhcnJheSIsImFycmF5TmFtZSI6Im1haWxzIiwicmVzdWx0cyI6WyJtYWls
Il19LHsidHlwZSI6InVuaXF1ZSIsInJlc3VsdCI6WyJtYWlscyIsIm1haWwiXSwi
dW5pcXVlVHlwZSI6InN0cmluZyIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVz
dWx0c0Zvcm1hdCI6IiRwMS5tYWlscy5mb3JtYXQoJyRtYWlsXFxuJykiLCJyZXN1
bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5m
b3JtYXQoKS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlx
dWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVz
IjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlv
bnMiOnsib25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlx
dWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIi
LCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNC
dWlsZGVycyI6W3sic291cmNlIjpbMCxbIm1haWxzIiwibWFpbCJdXSwidHlwZSI6
ImxjIiwiYXJyYXkiOiJtYWlscyIsInRvIjoibWFpbCJ9XSwiY29uZmlnT3ZlcnJp
ZGVzIjpbXX19

В результате получаем базу содержащую 1647115 уникальных email адресов:



  • Средняя скорость обработки составила 12000 ссылок в минуту
  • ТОП-10 почтовых доменов:
Код:
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net
 
А как бы потом несколько баз с email адресами объединить и почистить от дублей? может подскажите способ? получается ну так примерно 300mb файлик
 
А как бы потом несколько баз с email адресами объединить и почистить от дублей? может подскажите способ? получается ну так примерно 300mb файлик
не заметил сообщения, если речь про Linux то все просто:
Код:
cat base1.txt base2.txt base3.txt | sort -u > final.txt
 
А это у вас ушло только на сбор "мыла" 2,5 часа? или еще и на парс ссылок?
 
Использовав ваш пресет по поиску ссылок, у меня вопрос, а как у вас получилось что уник.рез. больше за всего (у меня все наоборот)? И как добились такой высокой скорости (общая у вас больше 600. У меня больше 150 не было).
 
а как у вас получилось что уник.рез. больше за всего (у меня все наоборот)?
это просто баг в подсчете был на той версии

И как добились такой высокой скорости (общая у вас больше 600. У меня больше 150 не было).
все зависит от прокси и числа потоков
 
Дык в исходном коде нет:
Код:
<b style="font-size: 15px; color: #0000FF;">عندي حل ليك يا اخي<br />
تواصل معي 00201223781307 علي الوتس اب <br />
<a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="3051585d55546f555e55425749444251545570585f445d51595c1e535f5d">[email&#160;protected]</a><script cf-hash='f9e31' type="text/javascript">
 
Последнее редактирование:
парс ссылок 40 минут
добрый день! есть одна просьба, у меня есть список id пользователей вконтакте (прикрепил), необходимо собрать ссылки на их аватары в виде

http://vk.com/photo-34241068_366806950
http://vk.com/photo-33221068_362285846
http://vk.com/photo-34541068_362263734
http://vk.com/photo-36941068_361083784
http://vk.com/photo-36941068_360894480
http://vk.com/photo-36455068_360104208
http://vk.com/photo-36141068_360104050
http://vk.com/photo-34341068_357306856

сам зеленый в этом деле( буду очень благодарен если спарсите , спасибо!!!
 
сам зеленый в этом деле( буду очень благодарен если спарсите , спасибо!!!

Добрый день, мы не занимаемся парсингом на заказ
Мы можем помочь составить задание(бесплатно или платно в зависимости от ситуации), но для этого необходимо приобрести лицензию на A-Parser
 
как парсить сайт на котором стоит CloudFlare Scrape Shield ??

пытался собрать emails с одного сайта
пробовал proxy, emulate broswer headers, googlebot useragent - все время получаю 403
пока решил задачу только парсингом из кэша google

стоит защита от CloudFlare
нашел такую инфу
"CloudFlare в конкретно этом случае использует хэш, ключ и случайный javascript-код, который браузер исполняет (вычисление нескольких арифметических действий, с виду выглядящих как обфусцированный мусор) и позже отсылает получившееся число вместе с хэшем и ключом на страницу проверки. Наша задача, таким образом — перехватить javascript-задание, решить его любым способом и спросить, правильна ли наша отгадка. Если да — получаем плюшку (куки cf_clearance). Если нет — получаем 503."

как а-парсер может побороть такое препятствие?
 
А можно парсить статьи с другого сайта? Это как-то настраивается в админке? С сайта на какой cms можно будет парсить?
 
Назад
Верх