0

关于复制/粘贴到浏览器时丢失字符的印度语言脚本

我需要了解字符类型并将它们转换为不同的可支持格式。我的问题是——我有使用 Anu Script Software 和 Apple 键盘输入的文本。使用 Anu 键入的文本也不能用作任何类型的浏览器或网络 WhatsApp 的输入。

任何人都可以解决这个问题

复制和粘贴的文本显示如下:-  </p>

真实文本如下图所示:-

此图显示了印度的一种语言,使用 Anu Script 软件键入

使用 Anu Script 软件输入的一种印度语言

4

1 回答 1

1

复制并粘贴到问题中的字符代码是 Unicode BMP(基本多语言平面)私人使用区 (PUA) 中的 Unicode 代码点。不同点是:

  • U+F020, U+F026, U+F02B, U+F03C, U+F054, U+F058, U+F05C, U+F06A
  • U+F073, U+F075, U+F077, U+F079, U+F080, U+F083, U+F087, U+F088
  • U+F08A, U+F090, U+F091, U+F09F, U+F0B2, U+F0BC, U+F0BF, U+F0C2
  • U+F0D2, U+F0D4, U+F0E1, U+F0E6, U+F0E7, U+F0EC, U+F0FB

如果您转到Unicode Charts页面并输入“F020”作为代码,它会为您提供UE000.pdf下载,其中显示:

私人使用区

范围:E000-F8FF

私人使用区域不包含任何字符分配,因此没有为该区域提供字符代码图表或名称列表。

这意味着 Anu 脚本软件使用的 Unicode 点没有国际公认的含义——根据定义,BMP PUA 是“私人使用”的,使用 PUA 共享数据的各方必须就代码点的含义达成一致,并且如何显示它们。他们只使用理解约定的软件。除了理解 Anu Script Software 功能的软件外,您不能使用这些代码点。

浏览器只有在知道相关字体在哪里时才能理解这些代码点,这涉及复杂的细节并且可能是特定于平台的。(我不知道从哪里开始!)

泰卢固语的标准 Unicode 范围是U+0C00..U+0C7F

泰卢固语

范围:0C00–0C7F

您最好的选择可能是分析 Anu Script Software 使用的代码点与泰卢固语的 Unicode 标准范围之间的异同,然后使用 Unicode 标准代码。您可能需要了解结合重音和泰卢固语的其他各个方面。


我根本不懂泰卢固语,所以下面的内容可能不准确,但我认为它或多或少可以理解 Anu Script Software 输出中的内容:

UTF-8 bytes      PUA        Telugu  Glyph
0xEF 0x82 0x87 = U+F087 ==> U+0C08  ఈ
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x82 0x80 = U+F080 ==> U+0C06  ఆ
0xEF 0x81 0x9C = U+F05C ==> U+0C32  ల
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య  (three code points for one character)
0xEF 0x81 0x94 = U+F054 /
0xEF 0x80 0xAB = U+F02B ==> U+0C66  ౦
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0x82 = U+F0C2 
0xEF 0x81 0xB3 = U+F073
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA6 = U+F026
0xEF 0x82 0x83 = U+F083
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0x98 = U+F058
0xEF 0x83 0xA6 = U+F0E6
0xEF 0x81 0xB5 = U+F075
0xEF 0x82 0xB2 = U+F0B2
0xEF 0x83 0x92 = U+F0D2
0xEF 0x81 0x9C = U+F05C
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0xA7 = U+F0E7 ==> U+0C46 U+0C66  ౦ె (Note 1)
0xEF 0x82 0xBF = U+F0BF
0xEF 0x83 0xAC = U+F0EC
0xEF 0x83 0x94 = U+F0D4
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x83 0xA7 = U+F0E7
0xEF 0x81 0xB7 = U+F077
0xEF 0x82 0x9F = U+F09F
0xEF 0x82 0xBC = U+F0BC
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x83 0xBB = U+F0FB
0xEF 0x81 0xB9 = U+F079
0xEF 0x82 0x90 = U+F090
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x82 0x88 = U+F088
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య
0xEF 0x81 0x94 = U+F054 /

注意 1:泰卢固语元音符号 E U+0C46 应该与泰卢固语数字零 U+0C66 结合——如果我正确识别了这些字符,这似乎不太可能。我将不再在这里尝试;我通过将您在图像中显示的内容与 Unicode 图表页面匹配来识别一些形状,但我对 PUA 代码点的映射没有信心。

您应该能够从提供 Anu 脚本软件的人员那里获得适当的信息。

于 2019-01-07T04:55:59.347 回答