0

我有从pdf文件中提取阿拉伯文本的同样问题,如果得到解决方案,任何人都可以帮忙吗???我用pdfbox尝试了很多次,但没有结果。

4

1 回答 1

0

从 PDF 中提取文本时,有几件事可能会出错:

  1. PDF 已加密。在这种情况下,您需要密码来提取数据。
  2. PDF 作为一种格式并不是真的要提取文本。因此 pdfbox 通常会尝试识别彼此靠近的字符并将它们组合成单词。正如您所想象的那样,这很容易出错。

查看此问题以获取更多信息。

于 2011-12-05T10:12:31.607 回答