Подскажите как парсить e-mail

  • Автор темы Автор темы vlad
  • Дата начала Дата начала
Откуда именно парсить? Как бы конкретнее чтоли.
 
есть файл с урлами, ранее прокачанный по гуглу и яндексу.

надо с этого списка вытянуть все мыла
 
спасибо, нащел

\b([-a-z0-9._%+]+@[a-z0-9.-]+\.[a-z]{2,6})\b
Флаги: ig


через какой модуль подскажите пожалуйста и где указывать флаги??

заранее извините за тупой вопрос
 
через какой модуль подскажите пожалуйста и где указывать флаги??

Через Net::HTTP + опцию Parse custom result

OkT3e.png


Более подробный разбор работы опции Обзор опции Parse custom result на примере парсинга rambler.ru
 
спасибо огромное за оперативность и полный ответ)))

еще вопрос как быть если емайл с защитой (java)

Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript

пример

http://www.budetvisa.com.ua/kontakti
 
никак, апарсер не обрабатывает JavaScript
 
при парсинге 100 тыс url прога вылетает раза 3-4, как можно это исправить?
 
после падения не запускай парсер и покажи последние 10 строчек aparser.log и stderr
 
Sep 8 22:30:27.60517 parser started
Sep 8 22:37:23.70523 starting task 1
Sep 8 22:37:25.84331 using new iterator
Sep 8 22:37:27.72763 task 1 completed
Sep 8 23:07:53.46381 starting task 2
Sep 8 23:07:54.36176 using new iterator
Sep 8 23:10:09.53501 task 2 paused
Sep 8 23:10:56.0113 starting task 3
Sep 8 23:10:56.86953 using new iterator
Sep 8 23:11:34.12181 task 3 paused
Sep 8 23:12:19.63214 starting task 4
Sep 8 23:12:20.58215 using new iterator
Sep 8 23:20:35.59559 task 4 paused
Sep 8 23:22:00.62524 force start task 4
Sep 8 23:22:00.62667 starting task 4
Sep 8 23:22:01.49386 using existing iterator
Sep 8 23:32:07.63663 task 4 paused
Sep 8 23:32:18.34592 force start task 4
Sep 8 23:32:18.34717 starting task 4
Sep 8 23:32:19.35884 using existing iterator
Sep 8 23:32:34.86516 task 4 paused
Sep 8 23:32:57.89758 force start task 4
Sep 8 23:32:57.89874 starting task 4
Sep 8 23:32:58.7464 using existing iterator
Sep 8 23:36:06.94199 task 4 paused
Sep 8 23:36:41.63748 force start task 4
Sep 8 23:36:41.63873 starting task 4
Sep 8 23:36:42.63396 using existing iterator
Sep 8 23:37:19.23191 task 4 paused
Sep 8 23:37:52.72533 force start task 4
Sep 8 23:37:52.7264 starting task 4
Sep 8 23:37:53.60407 using existing iterator
Sep 8 23:38:08.07802 task 4 paused
Sep 8 23:38:17.53157 force start task 4
Sep 8 23:38:17.53276 starting task 4
Sep 8 23:38:18.5066 using existing iterator
Sep 8 23:38:35.50579 task 4 paused
Sep 8 23:38:45.74378 force start task 4
Sep 8 23:38:45.74499 starting task 4
Sep 8 23:38:46.70664 using existing iterator
Sep 8 23:39:31.07671 task 4 paused
Sep 8 23:41:25.02655 force start task 4
Sep 8 23:41:25.02767 starting task 4
Sep 8 23:41:25.9344 using existing iterator
Sep 9 05:10:57.35723 long parsing(0.13433313369751): Net::HTTP::0, query: http://46.4.96.253/sitemap
Out of memory!
Sep 9 05:18:50.64125 end called


stderr - не нащел, где он лежит?
 
Под windows парсер не может занят более 1.2-1.8гб памяти, под линуксом в зависимости от лимитов системы, обычно это 4гб

В любом случае лучше обратиться ко мне и предоставить тимвьювер - посмотрим что не так
 
Под windows парсер не может занят более 1.2-1.8гб памяти, под линуксом в зависимости от лимитов системы, обычно это 4гб

В любом случае лучше обратиться ко мне и предоставить тимвьювер - посмотрим что не так

Это можно будет исправить? Хотя-бы в перспективе?
 
Назад
Верх