因此,我得到了一些希伯来语 PDF 文件,我想将其翻译成英文,当尝试将 PDF 文件中的文本复制并粘贴到文本编辑器中时,所有希伯来语最终字母都被错误地复制了。
我找到了这个问题,但没有找到解决方案,而且这个问题只是在谈论一个被错误阅读的特定最后一封信,它只是指一个特定的图书馆。
我尝试从 acrobat 阅读器和 chrome PDF 查看器中复制和粘贴,但都无法正确复制它们的内容。
我发现的另一个有趣的事情是,当您在浏览器中按 Ctrl+F(我在 chrome 上尝试过)并搜索最后一个字母“Pe”时,它会给出常规“Pe”和最后一个“Pe”的结果"(反之亦然,当您搜索常规“Pe”时),即使它们具有不同的代码点(以及 ANSI 代码页中的不同代码),这也很奇怪。(所有最后的字母和它们对应的常规字母都是一样的)
所以问题是 -有谁知道为什么会这样?
我知道可能没有映射到字形的实际代码点,但在这种情况下,字符是如何呈现的?我对这个主题不是很熟悉,所以我会很感激任何解释。此外,任何可以让我提取带有最终字母的文本的好的解决方案都将非常感激,因为我想解析文本并且弄乱了字母会导致单词不完整。
编辑:
根据 weibeld 的要求,我添加了一些复制的单词和相应的正确单词。我还将添加他们的 hexdump。
E1 F7 F8 1B בקר. # Should be בקרן (Final letter "Nun") Switches every
final Nun with 1B instead of EF according to the windows 1255 code page.
F2 F1 F7 E9 E9 17 עסקיי. # Should be עסקיים (Final letter "Mem") Switches
every final Mem with 17 instead of ED.
谢谢!