Массовый сбор e-mail

Пресет Собираем 1.65 миллиона email со страниц контактов за 2.5 часа 1.0

Available for license holders
Если нужно парсить текстовку, то это можно делать с помощью HTML::TextExtractor HTML::TextExtractor. В данном случае будет собираться весь текст из указанных страниц по заданным настройкам. CMS значения не имеет.
А если нужно целенаправленно парсить именно статьи, то под каждый сайт нужно индивидуально составлять пресет (обычно на основе Net::HTTP Net::HTTP) и регулярными выражениями (функция Parse custom result) забирать только нужную информацию. CMS в данном случае тоже значения не имеет.
 
а можно ли как то с адресами почт также сохранить и урл домена с которого спарсили почту?
 
Можно. Просто измените формат результата на такой:
Код:
$p1.mails.format('$query;$mail\n')
А если нужно только домен, а не ссылку, то добавьте Конструктор результатов, им из запроса извлекайте домен и выводите его:
Код:
$p1.mails.format('$domain;$mail\n')
 
Еще вопросик, а можно потом эти почты проверить на валидность? Типо как программа mail list validator.
 
Универсально - пока что нет. А так, можно под каждый почтовый домен попробовать сделать кастомные парсеры.
 
Это не так просто)
Нужно проанализировать разные способы... Например, проверка имени при регистрации. И если так сработает - делать пресет с такой проверкой.
 
А если мне нужно собрать ссылки с определенным ключём в тайтле, я могу как ключевое слово использовать "фитнес клуб+контакты"?
 
Да, можете. Также можно воспользоваться поисковыми операторами Гугла, например intitle:
 
А можно несколько поисковых запросов за раз использовать, типа, каждый с новой строчки?
 
Подскажите пожалуйста, может кто выложит пример как сделать сортировку собранных e-mail (mail, yandex, gmail ... и т.д )? заранее благодарен!
 
Последнее редактирование:
Как вариант, можно извлекать с помощью регулярного выражения домены из полученных мейлов и сохранять их вместе с самими мейлами в таблицу. А после окончания парсинга, отсортировать в Экселе.
 
https://www.job-mo.ru/vac3245371.html вот ссылка как в ней открыть "Показать электронную почту" и спарсить почту?
 
Последнее редактирование модератором:
Здравствуйте. Вам нужно сэмулировать этот запрос.
9osub_180709102641.png

В ответе прийдет email. Сделать это можно либо с помощью Net::HTTP Net::HTTP, либо JS парсеров
 
Назад
Верх