我有一个阿拉伯语 PDF,我想使用 Java 将其解析为文本文档。我尝试了很多次,英语单词解析成功,但阿拉伯语单词没有。
任何人都可以推荐一个可以正确转换阿拉伯语单词的解决方案吗?
我有一个阿拉伯语 PDF,我想使用 Java 将其解析为文本文档。我尝试了很多次,英语单词解析成功,但阿拉伯语单词没有。
任何人都可以推荐一个可以正确转换阿拉伯语单词的解决方案吗?
我想到了几个库。Apache Tika、iText或pdfbox将或多或少地解决您的问题。虽然,我必须为 Tika 说一句话,因为它支持语言检测,也可以处理其他文档类型。
我认为您可以使用iText使用 Java 进行 pdf 操作。它也支持阿拉伯语。