Сбор e-mail со всех страниц сайта

Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

Доступно владельцам лицензии
  • Автор темы Автор темы Nikolay
  • Дата начала Дата начала

Nikolay

A-Parser Enterprise License
A-Parser Enterprise
Здравствуйте,
Подскажите пожалуйста как выполнить сабж.

В моем случае :
- По определенным кейвордам получаю список сайтов, как указано здесь
- Далее я хотел бы проверить все страницы этих сайтов на наличие email адресов ( не только Контакты, Реклама, Поддержка и т.д. ) и спарсить при наличии на странице.

Дополнительный вопрос:
Можно ли поставить в задании условие - подставлять к каждому кейворду из файла определенную фразу ( forum, portal, etc... )

Заранее благодарен )
 
- Далее я хотел бы проверить все страницы этих сайтов на наличие email адресов ( не только Контакты, Реклама, Поддержка и т.д. ) и спарсить при наличии на странице.

Модифицируем задание из этого топика http://a-parser.com/threads/1324/ - заменяем Net::HTTP Net::HTTP на HTML::LinkExtractor HTML::LinkExtractor

JHeoq.png


  • Добавляем опцию Parse to level для перехода по внутренним страницам сайта до указанного уровня
  • Добавляем уникальность запросов

Дополнительный вопрос:
Можно ли поставить в задании условие - подставлять к каждому кейворду из файла определенную фразу ( forum, portal, etc... )

В формате запроса можно использовать макрос {subs:file}, подробнее тут http://a-parser.com/wiki/query-format/#Макросы-подстановок
 
И в чем проблема? Такие мейлы отлично парсятся:

H8DYS.png
 
странно, пробовал у меня была пустота, спасибо, буду разбираться
 
Все делаю как в примере, все запросы в 1 секунду выполняются как неудачные
В файле со списком доменов - домены указаны в формате :
www.domain.com
domain1.com
.....

345f6-clip-88kb.png
 
Скорее всего у вас по умолчанию используются прокси.
Добавьте пресет с желтой молнией, там выберите Use proxy и снимите справа галочку.
Также посмотри что происходит в очереди задач.
Что говорит тестовый парсинг?
 
Попробовал отключить прокси через Ovveride Option, результат тот же.

Тестовый парсинг, такого формата :

ed4e6-clip-75kb.png


Как видите дает результат :

28/11 19:55:59
Parser HTML::LinkExtractor::0 parse query www.theconnoisseurclub.com
28/11 19:55:59
GET(1): www.theconnoisseurclub.com - 595 Can't parse url: (0 KB)
28/11 19:55:59
Thread complete work
 
Все ссылки должны быть полноценные, с http://
 
Есть сайты которые находятся на субдомене www.
А в запросе стоит главный домен который редиректит на www.сайт.ru К примеру сайт avtodekor19rus.ru.
При парсинге ссылок вываливается ошибка
Код:
GET(1): http://avtodekor19rus.ru/ - 301 Moved Permanently (0 KB)
 
где ж это ошибка? выстави необходимое значение Max redirect count в настройках
 
подобная же задача, есть список доменов, без hhtp://www.
просто домены
выставляю уровень парсина 4,3, 2, даже пробовал 1
БЕЗ проксей
скорость сканирования порядка 10 мыл в минуту, это крайне медленно. Подскажите, пожалуйста, что не так у меня

e9dea14439399514df67eb0dbd66e8fe.png
 
В default пресете 20 потоков стоит, поставь например 500
 
извиняюсь, сделал не тот скрин, количество потоков я тоже менял, и 500 и 700 и на 1000 ставил, результат всё равно такой же (((
 
покажи скрин запущеного задания в очереди
 
Это 1000 потоков, с уровнем парсинга 2, без проксей
dc67bf075cf09006afa67a35a1237daf.png
 
и в чем проблема? скорость обработки запросов вполне нормальная

а понятия скорости сбора емейлов вообще не существует, все зависит от того есть емейл на странице или нет :)
 
Назад
Верх