1

我从 pdf 中提取了希腊文本,它给我的 HTML 输出为:μεταξ~,其中最后一个字符是旧的希腊字体。这里有趣的一点是,如果我在 MS-word 中查看它并将字体的最后一个字符选择为“OldGreekRoman”,那么该字符现在可以以原始形式查看。

这让我很困惑。请帮忙。

我需要最后一个字符的原始 unicode

4

4 回答 4

3

虽然这里离题了,应该移到别处,但我无法抗拒用给定的关于 void 的上下文信息来回答这个问题,最可能的答案是小波浪字符是某个字符的结果混合字母 U+03CD 希腊小写字母 UPSILON WITH TONOS,“ύ”。原因是“μεταξύ”是一个真正的希腊词。

于 2013-08-28T15:59:38.193 回答
1

您问题中的字符序列:

μεταξ~

是:

  • 03bc 希腊小写字母 MU
  • 03b5 希腊小写字母 EPSILON
  • 03c4 希腊小写字母 TAU
  • 03b1 希腊小写字母 ALPHA
  • 03be 希腊小写字母 XI
  • 02dc 小波浪号

最后一个字符不是希腊语。

这假设字符已正确复制并粘贴到您的问题中。

于 2013-08-28T14:56:42.807 回答
1

没有原始的 Unicode:该字符最初是符号字体中的自定义字形。它没有语义——就像 Wingdings 中的字母“A”看起来像一个和平标志。

字形应该是什么样子?可能有也可能没有代表相同字母的 Unicode 字符。可以创建从“ OldGreekRoman ”字体中的符号到 Unicode 等价物的映射,或者该字体可能用于 Unicode 中不存在的字符;如果没有字体的副本,我无法判断。

于 2013-08-28T14:59:53.447 回答
1

从原始 pdf复制字符并将其粘贴到此 Web 应用程序中,您将看到 unicode 代码点是什么。

于 2013-08-28T15:05:33.550 回答