Улучшение [1.2.946] Ограничения для HTML::EmailExtractor

  • Автор темы Автор темы stive84
  • Дата начала Дата начала

stive84

A-Parser Enterprise License
A-Parser Enterprise
Добрый день,

Предложение не собирать почтовые адреса, которые внутри тегов placeholder у input-ов форм. Также, не собирать почты, которые внутри тегов <script></script> (с любым набором атрибутов, т.е. <script type="application/ld+json"> или "text/javascript"... и т.п.), или внутри html-комментариев вида <!-- comment -->

В первом случае это почти всегда что-нибудь вроде [email protected], во втором - контакты авторов скрипта или вебмастера сайта.

P.S. Забыл ещё один момент - не собирать почту, которая внутри <style></style> с любым набором атрибутов. Тоже совершенно не имеющие отношения ни к чему контакты разработчиков (см. скриншот) прилетают из этих данных.
 

Вложения

  • 07-09 21.27.23.png
    07-09 21.27.23.png
    35,3 КБ · Просмотры: 9
Последнее редактирование:
Назад
Верх