1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

Сбор емейлов со всех страниц сайта

  1. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    проблема в том, что раньше, была скорость 300-500 мыл в минуту, а сейчас всего 10
    в общем, админский бубен помогает, сервак ребунули, кеш почистили, парсер переставили, и заработало :)
    что именно было причиной - не понятно....
    в любом случае, Форбидден, спасибо за оперативные ответы!
     
  2. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    и такой вопрос возник.
    бывают сайты небольшие, 10-20 страничек, их можно спарсить на предмет мыл достаточно просто и быстро
    а есть сайты с большим количеством страниц, и довольно часто бывает, что на них всех нет никаких мыл, и парсить сотни страниц такого сайта нет смысла. Есть ли возможность, чтобы устанавливать минимальное количество страниц при парсинге, если на них НЕ находятся мыла, то такой сайт пропускается.
    Речь идёт именно о парсере HTML::LinkExtractor

    например. выставляем Level Parsing - 3 и количество страниц - 40
    я же правильно понимаю, что сначала сканируются все страницы первого уровня, и страницы типа ContactUs, about и т.п. уже по умолчанию попадают в первый уровень, т.к. ссылки на такие страницы как правило, всегда есть на любой странице сайта либо в верхнем меню, либо в футере.
    Поэтому прямые контакты сайта уже спарсены.
    Далее уже идёт поиск возможных мыл на втором и третьем уровне парсинга. И если на этих уровнях на первых 40 страницах в поиске уникальных мыл НЕ находится, то сайт откладывается и начинается сканирование другого сайта.
    Иначе многостраничные сайты могут тормозить поиск очень сильно.
     
  3. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    нет, такой возможности нету
    для контакт форм достаточно Parse to level 1 cтавить
     
  4. 0day0hour

    0day0hour A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 мар 2013
    Сообщения:
    9
    Симпатии:
    0
    В догонку вопрос:
    на сайте к каждой ссылке подставляется &sid= с рандомным параметром, который не меняет контента страницы.
    И получается, что HTML::LinkExtractor будет работать очень долго.
    Вариант ограничить глубину - не вариант, так как это форум, и глубина там большая.
    Как обрезать &sid=, чтобы через parse to level ходил без него?
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    [​IMG]

    это если sid всегда в конце, если в произвольном месте то более универсальная регулярка:
    Код:
    &sid=[^&]+
     
    seodamage нравится это.
  6. sergas

    sergas A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    17 сен 2019
    Сообщения:
    27
    Симпатии:
    3
    Подскажите пожалуйста почему пресет не работает на этом сайте ( у меня linux версия)
    http://www.21granit.ru/
    Ошибка
    Parser HTML::LinkExtractor::0 parse query http://www.21granit.ru/
    04/04 10:36:05
    GET(1): http://www.21granit.ru/ - 200 OK (0.13 KB)
    04/04 10:36:05
    Detect encoding failed
    04/04 10:36:05
    Parse response: 1
    04/04 10:36:05
    Thread complete work

    Пробовал
    upload_2020-4-4_10-36-51.png

    спасибо
     
  7. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.163
    По указанной ссылке отдается такой контент:
    [​IMG]

    А-Парсер на данный момент не ходит по мета-редиректам.

    Кстати, для парсинга почт есть отдельный парсер: HTML::EmailExtractor HTML::EmailExtractor
     
  8. UASEO

    UASEO A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    13 ноя 2017
    Сообщения:
    1
    Симпатии:
    0
    А какой лимит на количество доменов в задаче? Если нужно обработать 100к сайтов, то это лучше сделать одной задачей на 100к или 10 задачами по 10к?
     
  9. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.163
    Количество запросов со стороны А-Парсера никак не лимитируется, вы можете в одном задании использовать столько запросов, сколько нужно.
     
  10. seodamage

    seodamage A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 июн 2024
    Сообщения:
    20
    Симпатии:
    0
    привет, как то можно забороть эту проблему? скачал парсер, добавил сайты, парсит помимо почт какой то мусор, судя по всему что то с регуляркой для поиска почт, а этот парсер давно не обновлялся.

    upload_2024-8-6_0-43-26.png
     
  11. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.163
    Используйте HTML::EmailExtractor HTML::EmailExtractor. Кроме того, результаты всегда можно отфильтровать с помощью фильтров.
     
  12. seodamage

    seodamage A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 июн 2024
    Сообщения:
    20
    Симпатии:
    0
    привет, как то мо
    что для этого нужно сделать?

    upload_2024-8-6_10-1-21.png
     
  13. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.163
    Выбрать соответствующий парсер и настроить его под свою задачу.
    [​IMG]
     
  14. seodamage

    seodamage A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 июн 2024
    Сообщения:
    20
    Симпатии:
    0
    очевидно же что я имел в виду как это сделать в контексте данного парсера / пресета. просто выбрать парсер из списка для меня не состовляет никакого труда.

    ну вот выбрал я парсер HTML link extractor - дальше то что? мне нужно чтобы он также со всех страниц сайтов автоматом почты собирал, для начала
     
  15. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.163
    Какой смысл для данной задачи использовать LinkExtractor, если давно уже есть EmailExtractor, который как раз предназначен для сбор почт? И я на скриншоте в предыдущем своем сообщении показал его минимальную настройку для прохода вглубь до 10-го уровня.

    Но если принципиально нужен именно LinkExtractor, и нужно фильтровать результаты, то добавьте к заданию (которое у вас на скриншоте в 32-м сообщении) фильтр и им фильтруйте. Документация по фильтрам здесь: https://a-parser.com/docs/guides/task-settings/results-filters
     
  16. seodamage

    seodamage A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 июн 2024
    Сообщения:
    20
    Симпатии:
    0
    да откуда я знаю что лучше для этого подходит? ещё месяц не прошёл с покупки апарсера, у меня недостаточно опыта взаимодействия с программой. я за эти дней 20 с покупки посидел над ним всего пару часов. давайте теперь посмотрим на это с моей стороны, то есть со стороны покупателя.

    вот меня заинтересовал данный парсер/пресет, я его скопировал к себе и столкнулся с описанными ранее проблемами. вы мне посоветовали использовать другой парсер, но я не понимаю на данный момент саму последовательность действий которую необходимо сделать чтобы заменить старый способ на новый. и для меня не понятно, почему например вы этого сами не можете сделать раз уж тут выложен этот парсер/пресет.

    соответственно для решения этой проблемы нужно либо исправить / починить / отремонтировать данный парсер, который судя по всему последний раз обновлялся 4 года назад. либо дать пример пресета выполняющего описанные ранее задачи.
     
  17. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.163
    Так я вам и написал сразу как лучше, а именно: "Используйте HTML::EmailExtractor HTML::EmailExtractor".

    Очевидно что нужно просто выбрать указанный парсер и настроить его под нужную задачу, т.е. в данном случае просто указать глубину. Это я вам также показал на скриншоте.

    Этот пример не нужно чинить/править/ремонтировать. Это каталог примеров и это базовый пример решения. Он открыт и каждый может его подогнать под свои задачи: модифицировать регулярное выражение, добавить фильтр и т.п. Все это описано в Документации.
    Но я ведь вам сразу порекомендовал более простое решение, готовый встроенный парсер, решающий ту же задачу. И скриншотом показал его базовую настройку.
     
    seodamage нравится это.
  18. seodamage

    seodamage A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 июн 2024
    Сообщения:
    20
    Симпатии:
    0
    блин кажись теперь понял. вот так?

    upload_2024-8-6_12-30-30.png

    я думал что нужно будет в "[​IMG] HTML::EmailExtractor". добавить фичу чтобы он сначала все страницы спарсил с сайтов. получается указав параметр: парсить до уровня я задаю глубину парсинга ссылок на сайтах? тогда действительно всё довольно просто делается.

    получается что этот пресет вообще бесполезный, в которым мы сейчас пишем, может лучше его убрать чтобы он никого так же как меня не смущал?

    спасибо за помощь
     
  19. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.163
    Да, и это описано с примером и очень детальным описанием прямо в документации по этому парсеру.

    Нет, он не совсем бесполезный. Это базовый пример, который можно адаптировать для многих задач.
     
    seodamage нравится это.

Поделиться этой страницей