2

所以我仍在研究这个解析器。今天我发现一个带有标签的文档<st1:place w:st="on">Google 告诉我它是一个 Microsoft Office 智能标签。

我想摆脱这些东西,但我找不到它们是什么或有多少的列表?

如果它们都遵循该<...:...>模式,那么使用正则表达式很容易删除。

该文档没有 doctype 和 .jsp 扩展名,但所有内容都在两个<html>标签之间,无论野兽多么不标准,我仍然需要解析它。

好的,这实际上不是一个大问题,但它会影响我的格式并让我烦恼。

4

2 回答 2

1

这个正则表达式应该可以解决问题:

/<[:alnum:]+:[\s\S]*>/

它将触发以 < 开头的任何标签,后跟字母数字模式,后跟“:”冒号。

或者:

/<\s*[:alnum:]+:[\s\S]*>/

将允许更宽松的标签格式化程序(开头 < 和命名空间之间的空格)

于 2011-02-23T15:40:57.383 回答
-1

我们想删除<w:smartTag>并且下面列出的内容对我们有所帮助。

/<w:smartTag[^>]*>/
于 2014-12-19T16:00:23.750 回答