我们有一个系统可以解析 PDF 文件并提取其中的文本以进行索引等。我们遇到的一个问题是 Illustrator 设置包含“fi”的单词以使用 fi 的连字(单个字形)。
例如这条线...
“长凳和丰富的玻璃化瓷砖。”
在我的 Java 调试器中显示如下
“ete 长凳和丰富的 vitri\u001Fed 瓷砖。”
\u001F 似乎是 Adobe PDF 文件用于连字“fi”的字符代码。我显然可以将 \u001F 的出现换成“fi”,但有人知道处理这种情况和类似情况的可靠方法吗?
我们有一个系统可以解析 PDF 文件并提取其中的文本以进行索引等。我们遇到的一个问题是 Illustrator 设置包含“fi”的单词以使用 fi 的连字(单个字形)。
例如这条线...
“长凳和丰富的玻璃化瓷砖。”
在我的 Java 调试器中显示如下
“ete 长凳和丰富的 vitri\u001Fed 瓷砖。”
\u001F 似乎是 Adobe PDF 文件用于连字“fi”的字符代码。我显然可以将 \u001F 的出现换成“fi”,但有人知道处理这种情况和类似情况的可靠方法吗?