有人知道我可以在 Java 中使用的强大的 RTF 解析器吗?我需要提取纯文本,包括国际文本。提取嵌入的图像和文件也很好。它也可以是我可以轻松调用的 C++ 或其他库,或者如果有好的源代码,我可以转换为 Java。
以下库没有涵盖足够的 RTF,或者无法解析一些有效的 RTF
- Java Swing 的 RTFEditorKit、非常基本和脆弱的 Apache Tikka、nutch 和许多其他工具都使用它。
- 来自 iText (com.lowagie.etc...) 的 RTF 库,不太全面
- etranslate rtf 库(这是最完整的 java 库) )。
有一个相当完整的 C# 库,但可惜......它是 C# 而不是 Java。 http://www.codeproject.com/Articles/27431/Writing-Your-Own-RTF-Converter
我还研究了 OpenOffice,它对于我需要的东西来说太慢了,尽管它可能非常全面。
(在发布这个问题之前,我确实进行了网络搜索和堆栈溢出搜索,所以如果你指的是一个古老的“已经问过”的帖子,它可能在那里没有答案。但请随时指出,以防万一我错过了!)