我从 pdf 中提取了希腊文本,它给我的 HTML 输出为:μεταξ~,其中最后一个字符是旧的希腊字体。这里有趣的一点是,如果我在 MS-word 中查看它并将字体的最后一个字符选择为“OldGreekRoman”,那么该字符现在可以以原始形式查看。
这让我很困惑。请帮忙。
我需要最后一个字符的原始 unicode
虽然这里离题了,应该移到别处,但我无法抗拒用给定的关于 void 的上下文信息来回答这个问题,最可能的答案是小波浪字符是某个字符的结果混合字母 U+03CD 希腊小写字母 UPSILON WITH TONOS,“ύ”。原因是“μεταξύ”是一个真正的希腊词。
您问题中的字符序列:
μεταξ~
是:
最后一个字符不是希腊语。
这假设字符已正确复制并粘贴到您的问题中。
没有原始的 Unicode:该字符最初是符号字体中的自定义字形。它没有语义——就像 Wingdings 中的字母“A”看起来像一个和平标志。
字形应该是什么样子?可能有也可能没有代表相同字母的 Unicode 字符。可以创建从“ OldGreekRoman ”字体中的符号到 Unicode 等价物的映射,或者该字体可能用于 Unicode 中不存在的字符;如果没有字体的副本,我无法判断。
从原始 pdf复制字符并将其粘贴到此 Web 应用程序中,您将看到 unicode 代码点是什么。