我的目标是解析几个相对复杂的 DTD 以揭示元素的层次结构。DTD 之间的唯一区别是版本,但每个版本都没有尝试保持向后兼容——这太容易了!因此,我打算将每个 DTD 定义的元素结构可视化,以便我可以设计一个适合统一存储数据的数据库模型。
因为我在 Python 中研究过的大多数解决方案都只会针对外部 DTD 进行验证,所以我决定从头开始努力。Pythonxml.parsers.expat
只解析 XML 文件并实现非常基本的 DTD 回调,所以我决定查看原始版本,它是用 C 编写的,并声称完全符合 XML 1.0 规范。但是,我对这种方法有以下疑问:
- expat(在 C 中)是否会解析 DTD 文件中的外部实体引用并遵循这些引用、解析它们的元素并将这些元素添加到层次结构中?
- expat 可以泛化和处理 SGML,还是在遇到无效的 DTD 但有效的 SGML 文件后会失败?
我的要求可能会导致外派不合适的结论。如果是这种情况,我正在考虑为 XML 1.0 DTD 编写一个词法分析器/解析器。还有其他我应该考虑的选择吗?
以下更简洁地说明了我的意图:
输入 DTD 摘录
<!--A concise summary of the disclosure.-->
<!ELEMENT abstract (doc-page+ | (abst-problem , abst-solution) | p+)>
从 DTD 摘录创建的对象(伪代码)
class abstract:
member doc_page_array[]
member abst_problem
member abst_solution
member paragraph_array[]
member description = "A concise summary of the disclosure."
<!ELEMENT>
一个具有挑战性的方面是将出现在其上方的评论归因于标签。因此,如果我不能使用 expat 来完成此操作,则可能需要使用本地解析器。
另一个问题是,一些解析器在处理使用大于 #xFFFF 的 unicode 字符的 DTD 时遇到问题,因此这可能是另一个有利于创建我自己的因素的因素。
如果事实证明词法分析器/解析器路线更适合我的任务,是否有人碰巧知道将这些 EBNF 表达式转换为能够被解析的东西的好方法?我想“最好的”方法可能是使用正则表达式。
无论如何,这些只是我对我的问题的想法。对上述问题的任何答案或有关替代方法的建议将不胜感激。