7

Tika 似乎无法识别 PDF 文件中的连字(fi、ff、fl...)并将其替换为问号。

任何想法(不仅在 Tika 上)在将字符连字转换为分隔字符时提取 PDF 文本?

File file = new File("path/to/file.pdf");
String text = Tika().parseToString(file);

编辑

我的 PDF 文件是 UTF-8 编码的(就是这么InputStream.getEncoding()说的),我的平台编码也是 UTF-8。即使使用-Dfile.encoding=UTF8,它也不起作用。

例如,我应该有:“différentes implémentations”......这就是我真正得到的:“di��erentes implémentations”

4

0 回答 0