python - 解析 DTD 以显示元素的层次结构

Question

我的目标是解析几个相对复杂的 DTD 以揭示元素的层次结构。DTD 之间的唯一区别是版本，但每个版本都没有尝试保持向后兼容——这太容易了！因此，我打算将每个 DTD 定义的元素结构可视化，以便我可以设计一个适合统一存储数据的数据库模型。

因为我在 Python 中研究过的大多数解决方案都只会针对外部 DTD 进行验证，所以我决定从头开始努力。Pythonxml.parsers.expat只解析 XML 文件并实现非常基本的 DTD 回调，所以我决定查看原始版本，它是用 C 编写的，并声称完全符合 XML 1.0 规范。但是，我对这种方法有以下疑问：

expat（在 C 中）是否会解析 DTD 文件中的外部实体引用并遵循这些引用、解析它们的元素并将这些元素添加到层次结构中？
expat 可以泛化和处理 SGML，还是在遇到无效的 DTD 但有效的 SGML 文件后会失败？

我的要求可能会导致外派不合适的结论。如果是这种情况，我正在考虑为 XML 1.0 DTD 编写一个词法分析器/解析器。还有其他我应该考虑的选择吗？

以下更简洁地说明了我的意图：

输入 DTD 摘录

<!--A concise summary of the disclosure.-->
<!ELEMENT abstract (doc-page+ | (abst-problem , abst-solution) | p+)>

从 DTD 摘录创建的对象（伪代码）

class abstract:
    member doc_page_array[]
    member abst_problem
    member abst_solution
    member paragraph_array[]
    member description = "A concise summary of the disclosure."

<!ELEMENT>一个具有挑战性的方面是将出现在其上方的评论归因于标签。因此，如果我不能使用 expat 来完成此操作，则可能需要使用本地解析器。

另一个问题是，一些解析器在处理使用大于 #xFFFF 的 unicode 字符的 DTD 时遇到问题，因此这可能是另一个有利于创建我自己的因素的因素。

如果事实证明词法分析器/解析器路线更适合我的任务，是否有人碰巧知道将这些 EBNF 表达式转换为能够被解析的东西的好方法？我想“最好的”方法可能是使用正则表达式。

无论如何，这些只是我对我的问题的想法。对上述问题的任何答案或有关替代方法的建议将不胜感激。

score 0 · Accepted Answer

有几种现有的工具可以满足您的需求，包括DTDParse、OpenSP、Matra和DTD Parser。还有关于创建自定义解析器的文章。

python - 解析 DTD 以显示元素的层次结构

输入 DTD 摘录

从 DTD 摘录创建的对象（伪代码）

1 回答 1

Related

Reference