java - 在 Apache Tika 中处理连字

问问题 2014-03-12T10:30:50.477

491 次

Tika 似乎无法识别 PDF 文件中的连字（fi、ff、fl...）并将其替换为问号。

任何想法（不仅在 Tika 上）在将字符连字转换为分隔字符时提取 PDF 文本？

File file = new File("path/to/file.pdf");
String text = Tika().parseToString(file);

编辑

我的 PDF 文件是 UTF-8 编码的（就是这么InputStream.getEncoding()说的），我的平台编码也是 UTF-8。即使使用-Dfile.encoding=UTF8，它也不起作用。

例如，我应该有：“différentes implémentations”......这就是我真正得到的：“di��erentes implémentations”

0 回答 0