This question shows research effort; it is useful and clear
0
This question does not show any research effort; it is unclear or not useful
Bookmark this question.
Show activity on this post.
我已经手动扫描了一些硬拷贝文件并存储到 pdf 文件(软拷贝)中。现在这些 pdf 文件是我的输入,所以我需要从这些 pdf 文件中提取文本。我尝试了 tika,pdfbox,itext,tess4j 没有任何东西可以为我的文件提供至少 50% 的准确度(主要是获取垃圾数据)(获取从互联网下载的其他 pdf 的准确文本),你能建议我解决这个问题吗?