Добавить возможность указывать между какими хтмл тегами НЕ парсить текст. Или регулярки для исключения определенного блока. Ибо попадает таки много мусора, например с чем столкнулся это выпадающий список <option value="1" class="ывваыа" >текст</option> Уверен что есть еще какие либо лишние теги которых пока не вычислил))
По размеру не получается, все равно цепляет. Он список как за одно предложение считает походу, и если он длинный то...
Например на форумах такое встречается. http://forum.searchengines.ru/showthread.php?t=814305 http://clip2net.com/clip/m0/1380888120-clip-24kb.png?nocache=1