1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

Сбор емейлов со всех страниц сайта

  1. Nikolay

    Nikolay A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 ноя 2014
    Сообщения:
    30
    Симпатии:
    15
    Здравствуйте,
    Подскажите пожалуйста как выполнить сабж.

    В моем случае :
    - По определенным кейвордам получаю список сайтов, как указано здесь
    - Далее я хотел бы проверить все страницы этих сайтов на наличие email адресов ( не только Контакты, Реклама, Поддержка и т.д. ) и спарсить при наличии на странице.

    Дополнительный вопрос:
    Можно ли поставить в задании условие - подставлять к каждому кейворду из файла определенную фразу ( forum, portal, etc... )

    Заранее благодарен )
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Модифицируем задание из этого топика http://a-parser.com/threads/1324/ - заменяем Net::HTTP Net::HTTP на HTML::LinkExtractor HTML::LinkExtractor

    [​IMG]

    • Добавляем опцию Parse to level для перехода по внутренним страницам сайта до указанного уровня
    • Добавляем уникальность запросов

    В формате запроса можно использовать макрос {subs:file}, подробнее тут http://a-parser.com/wiki/query-format/#Макросы-подстановок
     
    sim0n нравится это.
  3. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    а где там вообще email?
     
  5. relay

    relay A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 июл 2013
    Сообщения:
    157
    Симпатии:
    103
    Код:
    <meta property="og:admins" content="[email protected]" />
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    И в чем проблема? Такие мейлы отлично парсятся:

    [​IMG]
     
  7. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    странно, пробовал у меня была пустота, спасибо, буду разбираться
     
  8. Nikolay

    Nikolay A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 ноя 2014
    Сообщения:
    30
    Симпатии:
    15
    Все делаю как в примере, все запросы в 1 секунду выполняются как неудачные
    В файле со списком доменов - домены указаны в формате :
    www.domain.com
    domain1.com
    .....

    [​IMG]
     
  9. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Скорее всего у вас по умолчанию используются прокси.
    Добавьте пресет с желтой молнией, там выберите Use proxy и снимите справа галочку.
    Также посмотри что происходит в очереди задач.
    Что говорит тестовый парсинг?
     
  10. Nikolay

    Nikolay A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 ноя 2014
    Сообщения:
    30
    Симпатии:
    15
    Попробовал отключить прокси через Ovveride Option, результат тот же.

    Тестовый парсинг, такого формата :

    [​IMG]

    Как видите дает результат :

    28/11 19:55:59
    Parser HTML::LinkExtractor::0 parse query www.theconnoisseurclub.com
    28/11 19:55:59
    GET(1): www.theconnoisseurclub.com - 595 Can't parse url: (0 KB)
    28/11 19:55:59
    Thread complete work
     
  11. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Все ссылки должны быть полноценные, с http://
     
  12. Nikolay

    Nikolay A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 ноя 2014
    Сообщения:
    30
    Симпатии:
    15
    Вот так-так ! Funktioniert gut und schnell. Danke
     
  13. pk_2155

    pk_2155 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 июн 2014
    Сообщения:
    16
    Симпатии:
    3
    Есть сайты которые находятся на субдомене www.
    А в запросе стоит главный домен который редиректит на www.сайт.ru К примеру сайт avtodekor19rus.ru.
    При парсинге ссылок вываливается ошибка
    Код:
    GET(1): http://avtodekor19rus.ru/ - 301 Moved Permanently (0 KB)
     
  14. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    где ж это ошибка? выстави необходимое значение Max redirect count в настройках
     
    pk_2155 нравится это.
  15. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    подобная же задача, есть список доменов, без hhtp://www.
    просто домены
    выставляю уровень парсина 4,3, 2, даже пробовал 1
    БЕЗ проксей
    скорость сканирования порядка 10 мыл в минуту, это крайне медленно. Подскажите, пожалуйста, что не так у меня

    [​IMG]
     
  16. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    В default пресете 20 потоков стоит, поставь например 500
     
  17. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    извиняюсь, сделал не тот скрин, количество потоков я тоже менял, и 500 и 700 и на 1000 ставил, результат всё равно такой же (((
     
  18. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    покажи скрин запущеного задания в очереди
     
  19. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    Это 1000 потоков, с уровнем парсинга 2, без проксей
    [​IMG]
     
  20. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    и в чем проблема? скорость обработки запросов вполне нормальная

    а понятия скорости сбора емейлов вообще не существует, все зависит от того есть емейл на странице или нет :)
     

Поделиться этой страницей