Пресет Собираем 1.65 миллиона email со страниц контактов за 2.5 часа 1.0

Support · 8 Май 2017

Если нужно парсить текстовку, то это можно делать с помощью

HTML::TextExtractor. В данном случае будет собираться весь текст из указанных страниц по заданным настройкам. CMS значения не имеет.
А если нужно целенаправленно парсить именно статьи, то под каждый сайт нужно индивидуально составлять пресет (обычно на основе

Net::HTTP) и регулярными выражениями (функция Parse custom result) забирать только нужную информацию. CMS в данном случае тоже значения не имеет.

fri-lancer · 14 Май 2017

а можно ли как то с адресами почт также сохранить и урл домена с которого спарсили почту?

Support · 15 Май 2017

Можно. Просто измените формат результата на такой:

Код:

$p1.mails.format('$query;$mail\n')

А если нужно только домен, а не ссылку, то добавьте Конструктор результатов, им из запроса извлекайте домен и выводите его:

Код:

$p1.mails.format('$domain;$mail\n')

fri-lancer · 15 Май 2017

Еще вопросик, а можно потом эти почты проверить на валидность? Типо как программа mail list validator.

Support · 15 Май 2017

Универсально - пока что нет. А так, можно под каждый почтовый домен попробовать сделать кастомные парсеры.

fri-lancer · 15 Май 2017

а можно пример допустим под mail.ru?

Support · 15 Май 2017

Это не так просто)
Нужно проанализировать разные способы... Например, проверка имени при регистрации. И если так сработает - делать пресет с такой проверкой.

fri-lancer · 15 Май 2017

понятно

vadim4uk · 5 Июл 2017

А если мне нужно собрать ссылки с определенным ключём в тайтле, я могу как ключевое слово использовать "фитнес клуб+контакты"?

Support · 5 Июл 2017

Да, можете. Также можно воспользоваться поисковыми операторами Гугла, например intitle:

vadim4uk · 5 Июл 2017

Support сказал(а):
Да, можете. Также можно воспользоваться поисковыми операторами Гугла, например intitle:

Отлично спасибо!

vadim4uk · 6 Июл 2017

А можно несколько поисковых запросов за раз использовать, типа, каждый с новой строчки?

Support · 6 Июл 2017

Конечно, разве что-то мешает?

vadim4uk · 6 Июл 2017

Ясно , спасибо!

WarGuss · 16 Ноя 2017

Подскажите пожалуйста, может кто выложит пример как сделать сортировку собранных e-mail (mail, yandex, gmail ... и т.д )? заранее благодарен!

Support · 16 Ноя 2017

Как вариант, можно извлекать с помощью регулярного выражения домены из полученных мейлов и сохранять их вместе с самими мейлами в таблицу. А после окончания парсинга, отсортировать в Экселе.

WarGuss · 16 Ноя 2017

Спасибо за подсказку, уже нашел решение.

Vvtex · 8 Июл 2018

https://www.job-mo.ru/vac3245371.html вот ссылка как в ней открыть "Показать электронную почту" и спарсить почту?

Support Денис · 9 Июл 2018

Здравствуйте. Вам нужно сэмулировать этот запрос.

В ответе прийдет email. Сделать это можно либо с помощью

Net::HTTP, либо JS парсеров

Vvtex · 9 Июл 2018

Support Денис сказал(а):
Здравствуйте. Вам нужно сэмулировать этот запрос.
В ответе прийдет email. Сделать это можно либо с помощью Net::HTTP, либо JS парсеров

Понятно, покажите пример эмуляции запроса через

Net::HTTP.

Пресет Собираем 1.65 миллиона email со страниц контактов за 2.5 часа 1.0

Administrator

A-Parser Pro License

Administrator

A-Parser Pro License

Administrator

A-Parser Pro License

Administrator

A-Parser Pro License

A-Parser Pro License

Administrator

A-Parser Pro License

A-Parser Pro License

Administrator

A-Parser Pro License

A-Parser Pro License

Administrator

A-Parser Pro License

A-Parser Pro License

A-Parser Enterprise License

A-Parser Pro License

О нас

Быстрая навигация

Соцсети

Поддержка