我正在开展一个将技术文档导入跟踪系统的项目。少数出版物包含嵌入式HTML
. 这是正常的,我们去掉了HTML
通常用于在正文中添加粗体或斜体等格式的内容。
现在我们正在接收包含MathML
. 是否有任何库(或方法)可以去除标记并提供合理的文本等价物?我意识到这MathML
允许图形表示,但即使是那些也有文本等价物。
我正在开展一个将技术文档导入跟踪系统的项目。少数出版物包含嵌入式HTML
. 这是正常的,我们去掉了HTML
通常用于在正文中添加粗体或斜体等格式的内容。
现在我们正在接收包含MathML
. 是否有任何库(或方法)可以去除标记并提供合理的文本等价物?我意识到这MathML
允许图形表示,但即使是那些也有文本等价物。
为此,您必须处理 MathML 并对其进行解释。与删除 html 标记的情况不同,去除标签通常会从公式中去除含义。
所以你需要一个 mathml 解析器。确实想到了两个,都是由 David Carlisle 和基于 xslt 的:pmml2tex 转换为 Latex 格式,这通常或多或少具有可读性:您的示例将呈现为\frac{a+b+c}{2\times 5}
或者,pmathmlascii 对 mathml 的 ascii 艺术表示很少。您的示例将呈现为
a + b + c
---------
2 * 5
或类似的。
两种样式表都可以在 google 代码上找到,并在https://code.google.com/p/web-xslt/wiki/Overview进行讨论