1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Проверить все страницы сайта на наличие email адресов и спарсить их 1.0

Сбор емейлов со всех страниц сайта

  1. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    проблема в том, что раньше, была скорость 300-500 мыл в минуту, а сейчас всего 10
    в общем, админский бубен помогает, сервак ребунули, кеш почистили, парсер переставили, и заработало :)
    что именно было причиной - не понятно....
    в любом случае, Форбидден, спасибо за оперативные ответы!
     
  2. Robo

    Robo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 янв 2015
    Сообщения:
    14
    Симпатии:
    2
    и такой вопрос возник.
    бывают сайты небольшие, 10-20 страничек, их можно спарсить на предмет мыл достаточно просто и быстро
    а есть сайты с большим количеством страниц, и довольно часто бывает, что на них всех нет никаких мыл, и парсить сотни страниц такого сайта нет смысла. Есть ли возможность, чтобы устанавливать минимальное количество страниц при парсинге, если на них НЕ находятся мыла, то такой сайт пропускается.
    Речь идёт именно о парсере HTML::LinkExtractor

    например. выставляем Level Parsing - 3 и количество страниц - 40
    я же правильно понимаю, что сначала сканируются все страницы первого уровня, и страницы типа ContactUs, about и т.п. уже по умолчанию попадают в первый уровень, т.к. ссылки на такие страницы как правило, всегда есть на любой странице сайта либо в верхнем меню, либо в футере.
    Поэтому прямые контакты сайта уже спарсены.
    Далее уже идёт поиск возможных мыл на втором и третьем уровне парсинга. И если на этих уровнях на первых 40 страницах в поиске уникальных мыл НЕ находится, то сайт откладывается и начинается сканирование другого сайта.
    Иначе многостраничные сайты могут тормозить поиск очень сильно.
     
  3. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    нет, такой возможности нету
    для контакт форм достаточно Parse to level 1 cтавить
     
  4. 0day0hour

    0day0hour A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 мар 2013
    Сообщения:
    9
    Симпатии:
    0
    В догонку вопрос:
    на сайте к каждой ссылке подставляется &sid= с рандомным параметром, который не меняет контента страницы.
    И получается, что HTML::LinkExtractor будет работать очень долго.
    Вариант ограничить глубину - не вариант, так как это форум, и глубина там большая.
    Как обрезать &sid=, чтобы через parse to level ходил без него?
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    [​IMG]

    это если sid всегда в конце, если в произвольном месте то более универсальная регулярка:
    Код:
    &sid=[^&]+
     
  6. sergas

    sergas A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    17 сен 2019
    Сообщения:
    26
    Симпатии:
    3
    Подскажите пожалуйста почему пресет не работает на этом сайте ( у меня linux версия)
    http://www.21granit.ru/
    Ошибка
    Parser HTML::LinkExtractor::0 parse query http://www.21granit.ru/
    04/04 10:36:05
    GET(1): http://www.21granit.ru/ - 200 OK (0.13 KB)
    04/04 10:36:05
    Detect encoding failed
    04/04 10:36:05
    Parse response: 1
    04/04 10:36:05
    Thread complete work

    Пробовал
    upload_2020-4-4_10-36-51.png

    спасибо
     
  7. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.368
    Симпатии:
    2.101
    По указанной ссылке отдается такой контент:
    [​IMG]

    А-Парсер на данный момент не ходит по мета-редиректам.

    Кстати, для парсинга почт есть отдельный парсер: HTML::EmailExtractor HTML::EmailExtractor
     
  8. UASEO

    UASEO A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    13 ноя 2017
    Сообщения:
    1
    Симпатии:
    0
    А какой лимит на количество доменов в задаче? Если нужно обработать 100к сайтов, то это лучше сделать одной задачей на 100к или 10 задачами по 10к?
     
  9. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.368
    Симпатии:
    2.101
    Количество запросов со стороны А-Парсера никак не лимитируется, вы можете в одном задании использовать столько запросов, сколько нужно.
     

Поделиться этой страницей