1

我正在开展一个将技术文档导入跟踪系统的项目。少数出版物包含嵌入式HTML. 这是正常的,我们去掉了HTML通常用于在正文中添加粗体或斜体等格式的内容。

现在我们正在接收包含MathML. 是否有任何库(或方法)可以去除标记并提供合理的文本等价物?我意识到这MathML允许图形表示,但即使是那些也有文本等价物。

4

1 回答 1

0

为此,您必须处理 MathML 并对其进行解释。与删除 html 标记的情况不同,去除标签通常会从公式中去除含义。

所以你需要一个 mathml 解析器。确实想到了两个,都是由 David Carlisle 和基于 xslt 的:pmml2tex 转换为 Latex 格式,这通常或多或少具有可读性:您的示例将呈现为\frac{a+b+c}{2\times 5}

或者,pmathmlascii 对 mathml 的 ascii 艺术表示很少。您的示例将呈现为

a + b + c
---------
  2 * 5

或类似的。

两种样式表都可以在 google 代码上找到,并在https://code.google.com/p/web-xslt/wiki/Overview进行讨论

于 2013-10-01T18:13:06.403 回答