Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

Robo · 23 фев 2015

проблема в том, что раньше, была скорость 300-500 мыл в минуту, а сейчас всего 10
в общем, админский бубен помогает, сервак ребунули, кеш почистили, парсер переставили, и заработало
что именно было причиной - не понятно....
в любом случае, Форбидден, спасибо за оперативные ответы!

Robo · 23 фев 2015

и такой вопрос возник.
бывают сайты небольшие, 10-20 страничек, их можно спарсить на предмет мыл достаточно просто и быстро
а есть сайты с большим количеством страниц, и довольно часто бывает, что на них всех нет никаких мыл, и парсить сотни страниц такого сайта нет смысла. Есть ли возможность, чтобы устанавливать минимальное количество страниц при парсинге, если на них НЕ находятся мыла, то такой сайт пропускается.
Речь идёт именно о парсере HTML::LinkExtractor

например. выставляем Level Parsing - 3 и количество страниц - 40
я же правильно понимаю, что сначала сканируются все страницы первого уровня, и страницы типа ContactUs, about и т.п. уже по умолчанию попадают в первый уровень, т.к. ссылки на такие страницы как правило, всегда есть на любой странице сайта либо в верхнем меню, либо в футере.
Поэтому прямые контакты сайта уже спарсены.
Далее уже идёт поиск возможных мыл на втором и третьем уровне парсинга. И если на этих уровнях на первых 40 страницах в поиске уникальных мыл НЕ находится, то сайт откладывается и начинается сканирование другого сайта.
Иначе многостраничные сайты могут тормозить поиск очень сильно.

Forbidden · 23 фев 2015

нет, такой возможности нету
для контакт форм достаточно Parse to level 1 cтавить

0day0hour · 8 мар 2015

В догонку вопрос:
на сайте к каждой ссылке подставляется &sid= с рандомным параметром, который не меняет контента страницы.
И получается, что HTML::LinkExtractor будет работать очень долго.
Вариант ограничить глубину - не вариант, так как это форум, и глубина там большая.
Как обрезать &sid=, чтобы через parse to level ходил без него?

Forbidden · 8 мар 2015

0day0hour сказал(а): ↑

Как обрезать &sid=, чтобы через parse to level ходил без него?
Нажмите, чтобы раскрыть...

это если sid всегда в конце, если в произвольном месте то более универсальная регулярка:
Код:
&sid=[^&]+

sergas · 4 апр 2020

Подскажите пожалуйста почему пресет не работает на этом сайте ( у меня linux версия)
http://www.21granit.ru/
Ошибка
Parser HTML::LinkExtractor::0 parse query http://www.21granit.ru/
04/04 10:36:05
GET(1): http://www.21granit.ru/ - 200 OK (0.13 KB)
04/04 10:36:05
Detect encoding failed
04/04 10:36:05
Parse response: 1
04/04 10:36:05
Thread complete work

Пробовал

спасибо

Support · 6 апр 2020

По указанной ссылке отдается такой контент:

А-Парсер на данный момент не ходит по мета-редиректам.

Кстати, для парсинга почт есть отдельный парсер: HTML::EmailExtractor

UASEO · 15 дек 2020

А какой лимит на количество доменов в задаче? Если нужно обработать 100к сайтов, то это лучше сделать одной задачей на 100к или 10 задачами по 10к?

Support · 16 дек 2020

UASEO сказал(а): ↑

А какой лимит на количество доменов в задаче?
Нажмите, чтобы раскрыть...

Количество запросов со стороны А-Парсера никак не лимитируется, вы можете в одном задании использовать столько запросов, сколько нужно.

seodamage · 6 авг 2024

привет, как то можно забороть эту проблему? скачал парсер, добавил сайты, парсит помимо почт какой то мусор, судя по всему что то с регуляркой для поиска почт, а этот парсер давно не обновлялся.

Support · 6 авг 2024

seodamage сказал(а): ↑

как то можно забороть эту проблему
Нажмите, чтобы раскрыть...

Используйте HTML::EmailExtractor. Кроме того, результаты всегда можно отфильтровать с помощью фильтров.

seodamage · 6 авг 2024

привет, как то мо

Support сказал(а): ↑

Используйте HTML::EmailExtractor. Кроме того, результаты всегда можно отфильтровать с помощью фильтров.
Нажмите, чтобы раскрыть...

что для этого нужно сделать?

Support · 6 авг 2024

seodamage сказал(а): ↑

что для этого нужно сделать?
Нажмите, чтобы раскрыть...

Выбрать соответствующий парсер и настроить его под свою задачу.

seodamage · 6 авг 2024

Support сказал(а): ↑

Выбрать соответствующий парсер и настроить его под свою задачу.
Нажмите, чтобы раскрыть...

очевидно же что я имел в виду как это сделать в контексте данного парсера / пресета. просто выбрать парсер из списка для меня не состовляет никакого труда.

ну вот выбрал я парсер HTML link extractor - дальше то что? мне нужно чтобы он также со всех страниц сайтов автоматом почты собирал, для начала

Support · 6 авг 2024

Какой смысл для данной задачи использовать LinkExtractor, если давно уже есть EmailExtractor, который как раз предназначен для сбор почт? И я на скриншоте в предыдущем своем сообщении показал его минимальную настройку для прохода вглубь до 10-го уровня.

Но если принципиально нужен именно LinkExtractor, и нужно фильтровать результаты, то добавьте к заданию (которое у вас на скриншоте в 32-м сообщении) фильтр и им фильтруйте. Документация по фильтрам здесь: https://a-parser.com/docs/guides/task-settings/results-filters

seodamage · 6 авг 2024

Support сказал(а): ↑

Какой смысл для данной задачи использовать LinkExtractor, если давно уже есть EmailExtractor, который как раз предназначен для сбор почт?
Нажмите, чтобы раскрыть...

да откуда я знаю что лучше для этого подходит? ещё месяц не прошёл с покупки апарсера, у меня недостаточно опыта взаимодействия с программой. я за эти дней 20 с покупки посидел над ним всего пару часов. давайте теперь посмотрим на это с моей стороны, то есть со стороны покупателя.

вот меня заинтересовал данный парсер/пресет, я его скопировал к себе и столкнулся с описанными ранее проблемами. вы мне посоветовали использовать другой парсер, но я не понимаю на данный момент саму последовательность действий которую необходимо сделать чтобы заменить старый способ на новый. и для меня не понятно, почему например вы этого сами не можете сделать раз уж тут выложен этот парсер/пресет.

соответственно для решения этой проблемы нужно либо исправить / починить / отремонтировать данный парсер, который судя по всему последний раз обновлялся 4 года назад. либо дать пример пресета выполняющего описанные ранее задачи.

Support · 6 авг 2024

seodamage сказал(а): ↑

да откуда я знаю что лучше для этого подходит?
Нажмите, чтобы раскрыть...

Так я вам и написал сразу как лучше, а именно: "Используйте HTML::EmailExtractor".

seodamage сказал(а): ↑

я не понимаю на данный момент саму последовательность действий которую необходимо сделать чтобы заменить старый способ на новый
Нажмите, чтобы раскрыть...

Очевидно что нужно просто выбрать указанный парсер и настроить его под нужную задачу, т.е. в данном случае просто указать глубину. Это я вам также показал на скриншоте.

seodamage сказал(а): ↑

нужно либо исправить / починить / отремонтировать данный парсер, который судя по всему последний раз обновлялся 4 года назад
Нажмите, чтобы раскрыть...

Этот пример не нужно чинить/править/ремонтировать. Это каталог примеров и это базовый пример решения. Он открыт и каждый может его подогнать под свои задачи: модифицировать регулярное выражение, добавить фильтр и т.п. Все это описано в Документации.
Но я ведь вам сразу порекомендовал более простое решение, готовый встроенный парсер, решающий ту же задачу. И скриншотом показал его базовую настройку.

seodamage · 6 авг 2024

Support сказал(а): ↑

Так я вам и написал сразу как лучше, а именно: "Используйте HTML::EmailExtractor".
Нажмите, чтобы раскрыть...

блин кажись теперь понял. вот так?

я думал что нужно будет в " HTML::EmailExtractor". добавить фичу чтобы он сначала все страницы спарсил с сайтов. получается указав параметр: парсить до уровня я задаю глубину парсинга ссылок на сайтах? тогда действительно всё довольно просто делается.

получается что этот пресет вообще бесполезный, в которым мы сейчас пишем, может лучше его убрать чтобы он никого так же как меня не смущал?

спасибо за помощь

Support · 6 авг 2024

seodamage сказал(а): ↑

парсить до уровня я задаю глубину парсинга ссылок на сайтах?
Нажмите, чтобы раскрыть...

Да, и это описано с примером и очень детальным описанием прямо в документации по этому парсеру.

seodamage сказал(а): ↑

получается что этот пресет вообще бесполезный, в которым мы сейчас пишем, может лучше его убрать чтобы он никого так же как меня не смущал?
Нажмите, чтобы раскрыть...

Нет, он не совсем бесполезный. Это базовый пример, который можно адаптировать для многих задач.

Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

Robo A-Parser Pro License
A-Parser Pro

Robo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

0day0hour A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

sergas A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

UASEO A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

Robo A-Parser Pro License A-Parser Pro

Robo A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

0day0hour A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

sergas A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

UASEO A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

Robo A-Parser Pro License
A-Parser Pro

Robo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

0day0hour A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

sergas A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

UASEO A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

seodamage A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise