5

可能重复:
清理 Word HTML 的最佳免费方法是什么?
PHP 清理粘贴的 Microsoft 输入

我允许客户在富文本编辑器中输入注释,并且最近才升级到 ckEditor 3x,它默认去除 MS 单词类、样式和注释(当用户粘贴到编辑器对象时)。所以继续前进,我已经准备好了。

我最近需要清理 5 年的笔记,其中一些笔记嵌入了 MS Word 生成的 HTML。我需要遍历这段文本并清理它。

我不需要删除所有 span 标签,只需要删除那些标识为 Microsoft 编写的标签。

我试过使用 HTMLCleaner,但它没有删除 MS 生成的 HTML。 http://word2cleanhtml.com完全符合我的要求,但是开发人员目前不提供 API 供公众使用(截至 2012 年 7 月 9 日)。

在过去的几周里,我断断续续地寻找这样的课程,但运气不佳。你们中有人找到了想要分享的有用课程吗?

4

1 回答 1

7

http://htmlpurifier.org/

这将做你想要的。

于 2012-07-09T17:49:42.657 回答