Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

Nikolay · 27 Ноя 2014

Здравствуйте,
Подскажите пожалуйста как выполнить сабж.

В моем случае :
- По определенным кейвордам получаю список сайтов, как указано здесь
- Далее я хотел бы проверить все страницы этих сайтов на наличие email адресов ( не только Контакты, Реклама, Поддержка и т.д. ) и спарсить при наличии на странице.

Дополнительный вопрос:
Можно ли поставить в задании условие - подставлять к каждому кейворду из файла определенную фразу ( forum, portal, etc... )

Заранее благодарен )

Forbidden · 27 Ноя 2014

Nikolay сказал(а):
- Далее я хотел бы проверить все страницы этих сайтов на наличие email адресов ( не только Контакты, Реклама, Поддержка и т.д. ) и спарсить при наличии на странице.

Модифицируем задание из этого топика http://a-parser.com/threads/1324/ - заменяем

Net::HTTP на

HTML::LinkExtractor

Добавляем опцию Parse to level для перехода по внутренним страницам сайта до указанного уровня
Добавляем уникальность запросов

Nikolay сказал(а):
Дополнительный вопрос:
Можно ли поставить в задании условие - подставлять к каждому кейворду из файла определенную фразу ( forum, portal, etc... )

В формате запроса можно использовать макрос {subs:file}, подробнее тут http://a-parser.com/wiki/query-format/#Макросы-подстановок

Kreola · 28 Ноя 2014

Приветствую.
Прошу помощи для нахождения емаил адреса с таких страниц https://www.mourjan.com/lb/beirut/human-resources-services/offered-services/3240582/
Стандартная регулярка не работает.

Forbidden · 28 Ноя 2014

Kreola сказал(а):
Стандартная регулярка не работает.

а где там вообще email?

relay · 28 Ноя 2014

Forbidden сказал(а):
а где там вообще email?

Код:

<meta property="og:admins" content="[email protected]" />

Forbidden · 28 Ноя 2014

И в чем проблема? Такие мейлы отлично парсятся:

Kreola · 28 Ноя 2014

странно, пробовал у меня была пустота, спасибо, буду разбираться

Nikolay · 28 Ноя 2014

Все делаю как в примере, все запросы в 1 секунду выполняются как неудачные
В файле со списком доменов - домены указаны в формате :
www.domain.com
domain1.com
.....

Kreola · 28 Ноя 2014

Скорее всего у вас по умолчанию используются прокси.
Добавьте пресет с желтой молнией, там выберите Use proxy и снимите справа галочку.
Также посмотри что происходит в очереди задач.
Что говорит тестовый парсинг?

Nikolay · 28 Ноя 2014

Попробовал отключить прокси через Ovveride Option, результат тот же.

Тестовый парсинг, такого формата :

Как видите дает результат :

28/11 19:55:59
Parser HTML::LinkExtractor::0 parse query www.theconnoisseurclub.com
28/11 19:55:59
GET(1): www.theconnoisseurclub.com - 595 Can't parse url: (0 KB)
28/11 19:55:59
Thread complete work

Forbidden · 29 Ноя 2014

Все ссылки должны быть полноценные, с http://

Nikolay · 29 Ноя 2014

Вот так-так ! Funktioniert gut und schnell. Danke

pk_2155 · 31 Янв 2015

Есть сайты которые находятся на субдомене www.
А в запросе стоит главный домен который редиректит на www.сайт.ru К примеру сайт avtodekor19rus.ru.
При парсинге ссылок вываливается ошибка

Код:

GET(1): http://avtodekor19rus.ru/ - 301 Moved Permanently (0 KB)

Forbidden · 31 Янв 2015

где ж это ошибка? выстави необходимое значение Max redirect count в настройках

Robo · 22 Фев 2015

подобная же задача, есть список доменов, без hhtp://www.
просто домены
выставляю уровень парсина 4,3, 2, даже пробовал 1
БЕЗ проксей
скорость сканирования порядка 10 мыл в минуту, это крайне медленно. Подскажите, пожалуйста, что не так у меня

Forbidden · 23 Фев 2015

В default пресете 20 потоков стоит, поставь например 500

Robo · 23 Фев 2015

извиняюсь, сделал не тот скрин, количество потоков я тоже менял, и 500 и 700 и на 1000 ставил, результат всё равно такой же (((

Forbidden · 23 Фев 2015

покажи скрин запущеного задания в очереди

Robo · 23 Фев 2015

Это 1000 потоков, с уровнем парсинга 2, без проксей

Forbidden · 23 Фев 2015

и в чем проблема? скорость обработки запросов вполне нормальная

а понятия скорости сбора емейлов вообще не существует, все зависит от того есть емейл на странице или нет

Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

A-Parser Enterprise License

Administrator

Member

Administrator

A-Parser Enterprise License

Administrator

Member

A-Parser Enterprise License

Member

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

A-Parser Pro License

Administrator

A-Parser Pro License

Administrator

A-Parser Pro License

Administrator

A-Parser Pro License

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка