1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Улучшение [1.2.946] Ограничения для HTML::EmailExtractor

Тема в разделе "1.2.948", создана пользователем stive84, 8 июл 2020.

  1. stive84

    stive84 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 сен 2013
    Сообщения:
    23
    Симпатии:
    8
    Добрый день,

    Предложение не собирать почтовые адреса, которые внутри тегов placeholder у input-ов форм. Также, не собирать почты, которые внутри тегов <script></script> (с любым набором атрибутов, т.е. <script type="application/ld+json"> или "text/javascript"... и т.п.), или внутри html-комментариев вида <!-- comment -->

    В первом случае это почти всегда что-нибудь вроде [email protected], во втором - контакты авторов скрипта или вебмастера сайта.

    P.S. Забыл ещё один момент - не собирать почту, которая внутри <style></style> с любым набором атрибутов. Тоже совершенно не имеющие отношения ни к чему контакты разработчиков (см. скриншот) прилетают из этих данных.
     

    Вложения:

    #1 stive84, 8 июл 2020
    Последнее редактирование: 9 июл 2020

Поделиться этой страницей