java - 如何使用java从扫描的pdf文件中提取文本

翻译自：https://stackoverflow.com/questions/19021761 2013-09-26T07:17:40.783

2430 次

我已经手动扫描了一些硬拷贝文件并存储到 pdf 文件（软拷贝）中。现在这些 pdf 文件是我的输入，所以我需要从这些 pdf 文件中提取文本。我尝试了 tika,pdfbox,itext,tess4j 没有任何东西可以为我的文件提供至少 50% 的准确度（主要是获取垃圾数据）（获取从互联网下载的其他 pdf 的准确文本），你能建议我解决这个问题吗？

谢谢

java - 如何使用java从扫描的pdf文件中提取文本

0 回答 0

Related

Reference