我正在使用 tika 从包含很多表格的 pdf 文件中提取文本。
java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf
它返回一些无效文本,有时它会修剪两个单词之间的空白;例如,它返回“qu inakli fmyathematical idea to the real world”而不是“Link math idea to the real world”。
有没有办法尽量减少这种错误?或者我可以使用另一个库吗?使用 OCR 处理这类 pdf 是否有意义。