我有从pdf文件中提取阿拉伯文本的同样问题,如果得到解决方案,任何人都可以帮忙吗???我用pdfbox尝试了很多次,但没有结果。
问问题
1047 次
1 回答
0
从 PDF 中提取文本时,有几件事可能会出错:
- PDF 已加密。在这种情况下,您需要密码来提取数据。
- PDF 作为一种格式并不是真的要提取文本。因此 pdfbox 通常会尝试识别彼此靠近的字符并将它们组合成单词。正如您所想象的那样,这很容易出错。
查看此问题以获取更多信息。
于 2011-12-05T10:12:31.607 回答