所以我仍在研究这个解析器。今天我发现一个带有标签的文档<st1:place w:st="on">
Google 告诉我它是一个 Microsoft Office 智能标签。
我想摆脱这些东西,但我找不到它们是什么或有多少的列表?
如果它们都遵循该<...:...>
模式,那么使用正则表达式很容易删除。
该文档没有 doctype 和 .jsp 扩展名,但所有内容都在两个<html>
标签之间,无论野兽多么不标准,我仍然需要解析它。
好的,这实际上不是一个大问题,但它会影响我的格式并让我烦恼。