Ошибка [1.2.2016] Ошибки в работе HTML::EmailExtractor

  • Автор темы Автор темы stive84
  • Дата начала Дата начала

stive84

A-Parser Enterprise License
A-Parser Enterprise
Команда, добрый день,

Сабж, примеры:

http://www.bin-dumpster-rentals.com/contact - в ответ приходят 4 строки, только одна из которых email.
http://www.kmconstructionltd.ca/contact - та же история.

Краевой пример - если домен перебрасывает на ФБ-page, (например megauto.com) в ответ вместо почты парсер пришлёт строку, в которой найдёт @, видимо - вот реальный ответ, который пришёл в качестве адреса почты: Repost @renergracie with thanks. Headlock escapes, the bread and butter of fundamental self defence training. n•n#selfdefense #selfdefence #jiujitsu #headlock #choke #?? #trainforlife #graciejiujitsu #gjj #heliogracie #technique #leverage #momentum #armbar #frame #striking #defend #escape #selfdefencetraining #selfdefencetechnique #bjj #brazilianjiujitsu #mount #backtake #rnc #posture #guillotinechoke

По идее все эти мелочи можно решить, если проверять каждую полученную строку на предмет базовых обязательных признаков email, какой-нибудь регуляркой в стиле [a-zA-Z0-9_\.\+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-\.]+
 
Пока, к сожалению, всё так же мусор собирается в ответ :(( Проверил свежую версию 1.2.2014 только что. Пожалуйста, обратите внимание на проблему, очень мешает этот глюк.
 
Последнее редактирование:
http://www.bin-dumpster-rentals.com/contact - в ответ приходят 4 строки, только одна из которых email.
http://www.kmconstructionltd.ca/contact - та же история.
Исправлено в 1.2.2016

Краевой пример - если домен перебрасывает на ФБ-page, (например megauto.com) в ответ вместо почты парсер пришлёт строку, в которой найдёт @
Описанную ситуацию не удалось воспроизвести
 
Назад
Верх