Сбор e-mail со всех страниц сайта

Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

Доступно владельцам лицензии
  • Автор темы Автор темы Nikolay
  • Дата начала Дата начала
проблема в том, что раньше, была скорость 300-500 мыл в минуту, а сейчас всего 10
в общем, админский бубен помогает, сервак ребунули, кеш почистили, парсер переставили, и заработало :)
что именно было причиной - не понятно....
в любом случае, Форбидден, спасибо за оперативные ответы!
 
и такой вопрос возник.
бывают сайты небольшие, 10-20 страничек, их можно спарсить на предмет мыл достаточно просто и быстро
а есть сайты с большим количеством страниц, и довольно часто бывает, что на них всех нет никаких мыл, и парсить сотни страниц такого сайта нет смысла. Есть ли возможность, чтобы устанавливать минимальное количество страниц при парсинге, если на них НЕ находятся мыла, то такой сайт пропускается.
Речь идёт именно о парсере HTML::LinkExtractor

например. выставляем Level Parsing - 3 и количество страниц - 40
я же правильно понимаю, что сначала сканируются все страницы первого уровня, и страницы типа ContactUs, about и т.п. уже по умолчанию попадают в первый уровень, т.к. ссылки на такие страницы как правило, всегда есть на любой странице сайта либо в верхнем меню, либо в футере.
Поэтому прямые контакты сайта уже спарсены.
Далее уже идёт поиск возможных мыл на втором и третьем уровне парсинга. И если на этих уровнях на первых 40 страницах в поиске уникальных мыл НЕ находится, то сайт откладывается и начинается сканирование другого сайта.
Иначе многостраничные сайты могут тормозить поиск очень сильно.
 
нет, такой возможности нету
для контакт форм достаточно Parse to level 1 cтавить
 
В догонку вопрос:
на сайте к каждой ссылке подставляется &sid= с рандомным параметром, который не меняет контента страницы.
И получается, что HTML::LinkExtractor будет работать очень долго.
Вариант ограничить глубину - не вариант, так как это форум, и глубина там большая.
Как обрезать &sid=, чтобы через parse to level ходил без него?
 
Как обрезать &sid=, чтобы через parse to level ходил без него?

iu2sa.png


это если sid всегда в конце, если в произвольном месте то более универсальная регулярка:
Код:
&sid=[^&]+
 
Подскажите пожалуйста почему пресет не работает на этом сайте ( у меня linux версия)
http://www.21granit.ru/
Ошибка
Parser HTML::LinkExtractor::0 parse query http://www.21granit.ru/
04/04 10:36:05
GET(1): http://www.21granit.ru/ - 200 OK (0.13 KB)
04/04 10:36:05
Detect encoding failed
04/04 10:36:05
Parse response: 1
04/04 10:36:05
Thread complete work

Пробовал
upload_2020-4-4_10-36-51.png

спасибо
 
По указанной ссылке отдается такой контент:
9h3b0_200406102747.png


А-Парсер на данный момент не ходит по мета-редиректам.

Кстати, для парсинга почт есть отдельный парсер: HTML::EmailExtractor HTML::EmailExtractor
 
А какой лимит на количество доменов в задаче? Если нужно обработать 100к сайтов, то это лучше сделать одной задачей на 100к или 10 задачами по 10к?
 
привет, как то можно забороть эту проблему? скачал парсер, добавил сайты, парсит помимо почт какой то мусор, судя по всему что то с регуляркой для поиска почт, а этот парсер давно не обновлялся.

upload_2024-8-6_0-43-26.png
 
Выбрать соответствующий парсер и настроить его под свою задачу.
очевидно же что я имел в виду как это сделать в контексте данного парсера / пресета. просто выбрать парсер из списка для меня не состовляет никакого труда.

ну вот выбрал я парсер HTML link extractor - дальше то что? мне нужно чтобы он также со всех страниц сайтов автоматом почты собирал, для начала
 
Какой смысл для данной задачи использовать LinkExtractor, если давно уже есть EmailExtractor, который как раз предназначен для сбор почт? И я на скриншоте в предыдущем своем сообщении показал его минимальную настройку для прохода вглубь до 10-го уровня.

Но если принципиально нужен именно LinkExtractor, и нужно фильтровать результаты, то добавьте к заданию (которое у вас на скриншоте в 32-м сообщении) фильтр и им фильтруйте. Документация по фильтрам здесь: https://a-parser.com/docs/guides/task-settings/results-filters
 
Какой смысл для данной задачи использовать LinkExtractor, если давно уже есть EmailExtractor, который как раз предназначен для сбор почт?
да откуда я знаю что лучше для этого подходит? ещё месяц не прошёл с покупки апарсера, у меня недостаточно опыта взаимодействия с программой. я за эти дней 20 с покупки посидел над ним всего пару часов. давайте теперь посмотрим на это с моей стороны, то есть со стороны покупателя.

вот меня заинтересовал данный парсер/пресет, я его скопировал к себе и столкнулся с описанными ранее проблемами. вы мне посоветовали использовать другой парсер, но я не понимаю на данный момент саму последовательность действий которую необходимо сделать чтобы заменить старый способ на новый. и для меня не понятно, почему например вы этого сами не можете сделать раз уж тут выложен этот парсер/пресет.

соответственно для решения этой проблемы нужно либо исправить / починить / отремонтировать данный парсер, который судя по всему последний раз обновлялся 4 года назад. либо дать пример пресета выполняющего описанные ранее задачи.
 
да откуда я знаю что лучше для этого подходит?
Так я вам и написал сразу как лучше, а именно: "Используйте HTML::EmailExtractor HTML::EmailExtractor".

я не понимаю на данный момент саму последовательность действий которую необходимо сделать чтобы заменить старый способ на новый
Очевидно что нужно просто выбрать указанный парсер и настроить его под нужную задачу, т.е. в данном случае просто указать глубину. Это я вам также показал на скриншоте.

нужно либо исправить / починить / отремонтировать данный парсер, который судя по всему последний раз обновлялся 4 года назад
Этот пример не нужно чинить/править/ремонтировать. Это каталог примеров и это базовый пример решения. Он открыт и каждый может его подогнать под свои задачи: модифицировать регулярное выражение, добавить фильтр и т.п. Все это описано в Документации.
Но я ведь вам сразу порекомендовал более простое решение, готовый встроенный парсер, решающий ту же задачу. И скриншотом показал его базовую настройку.
 
Так я вам и написал сразу как лучше, а именно: "Используйте
html-emailextractor.png
HTML::EmailExtractor".
блин кажись теперь понял. вот так?

upload_2024-8-6_12-30-30.png

я думал что нужно будет в "
html-emailextractor.png
HTML::EmailExtractor". добавить фичу чтобы он сначала все страницы спарсил с сайтов. получается указав параметр: парсить до уровня я задаю глубину парсинга ссылок на сайтах? тогда действительно всё довольно просто делается.

получается что этот пресет вообще бесполезный, в которым мы сейчас пишем, может лучше его убрать чтобы он никого так же как меня не смущал?

спасибо за помощь
 
парсить до уровня я задаю глубину парсинга ссылок на сайтах?
Да, и это описано с примером и очень детальным описанием прямо в документации по этому парсеру.

получается что этот пресет вообще бесполезный, в которым мы сейчас пишем, может лучше его убрать чтобы он никого так же как меня не смущал?
Нет, он не совсем бесполезный. Это базовый пример, который можно адаптировать для многих задач.
 
Назад
Верх