0

我已经手动扫描了一些硬拷贝文件并存储到 pdf 文件(软拷贝)中。现在这些 pdf 文件是我的输入,所以我需要从这些 pdf 文件中提取文本。我尝试了 tika,pdfbox,itext,tess4j 没有任何东西可以为我的文件提供至少 50% 的准确度(主要是获取垃圾数据)(获取从互联网下载的其他 pdf 的准确文本),你能建议我解决这个问题吗?

谢谢

4

0 回答 0