我需要在服务器端处理“脏”的 html 数据。当我在服务器端使用 Node.JS 和 jQuery 时,我可以使用 JS 和 jQuery DOM-parser 的所有功能来处理我的 html 内容。
“脏”数据意味着以下内容:
<br ><br />Home <a href="http://habrahabr.ru/post/169139/"> gamy code </ a>
<br>
Technique: <a href="http://habrahabr.ru/post/173903/"> Preparation methods </ a> <br>
<br>
In continuation, the technique based on the book Refactoring Refactoring <a href="http://www.ozon.ru/context/detail/id/1308678/">. Improvement of existing code by Martin Fowler. </ A> <br>
<a href="http://habrahabr.ru/post/174779/#habracut"> Read more → </ a>
因此,它可能在开头/中间有几个 br,空 p 等。我尝试使用
$('*:empty').remove();
但是,如果帖子开始形成
Home <a href="http://habrahabr.ru/post/169139/"> gamy code </ a> <br>
"<a href="http://habrahabr..." 之前的所有内容都被删除。
那么,是否有任何可靠的生产就绪的基于 JS/jQuery 的解决方案来美化 html 数据以删除开头的空标签/中间的双 br/p 等?
ps 不想使用简单的正则表达式,因为在如此肮脏的内容中可能会发生很多不同的情况