问题标签 [surrogate-pairs]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

101 问题

0 投票

1 回答

144 浏览

r - 使用 R 统一日文“dakuten”字符中的代理对

我试图将日语字符串向量（最初从逗号分隔的文件中导入）与从 Mac OSX 下的文件夹中提取的文件名列表进行匹配。

向量中的一个元素是a：

文件名中的相应元素是b

问题是它们在 R 中在逻辑上并不相等：

我已经发现这是日本“dakuten”字符的代理对出现的问题（即通过添加额外点从け扩展的げ字符）。因此，它们实际上彼此不同：

如何转换这两个版本的相同日文字符，以便它们可以使用 R 进行有效匹配（即它们应该相同）？

r surrogate-pairs cjk

2017-11-10T04:19:03.607

0 投票

0 回答

8161 浏览

python - UnicodeEncodeError：“utf-8”编解码器无法在位置 1 编码字符“\udc43”：不允许代理

我有一个包含的列表placenames，我想创建另一个数组，最初为空，然后迭代列表placenames并用这些填充我的空数组placenames。

例如，我的第一个位置是并通过以下方式访问列表'CHARTRIDGE'中的此元素：LOCARYLOCARY[S[0][0]]'CHARTRIDGE'

我创建了一个空数组：LOCLIST = np.empty([len(LOCARY),1])

然后我写了一个for循环来填充它使用的项目LOCARY：

但我得到了错误：

UnicodeEncodeError：“utf-8”编解码器无法在位置 1 编码字符“\udc43”：不允许代理

我想知道它是否不喜欢'.placename

任何帮助将不胜感激，谢谢。

python character-encoding surrogate-pairs

2017-11-22T14:27:54.230

0 投票

1 回答

361 浏览

perl - 如何在 perl 中显示字符串中的代理对

我正在使用 perl 代码库来验证客户输入，我的目标是阻止代理字符。

我的想法是首先将客户输入编码为 UTF-16 和

但是，我没有从 Encode::encode 获得正确的 UTF-16 值。

如何显示代理对？是否有任何直接的方法来验证字符串是否包含 Perl 中的代理字符？

perl unicode surrogate-pairs

2018-03-22T03:33:13.043

0 投票

1 回答

285 浏览

c# - 对于代理对，String.Replace(string,string) Unicode 安全吗？

我试图找出创建一个等效于String.Replace("oldValue","newValue"); 可以处理代理对的函数的最佳方法。

我担心的是，如果字符串中有代理项对，并且存在与代理项对的一部分匹配的字符串，那么它可能会拆分代理项并具有损坏的数据。

所以我的高级问题是：对于 Unicode 和代理对来说，这是一种安全的操作吗？String.Replace(string oldValue, string newValue);

如果不是，那么最好的前进道路是什么？我熟悉可以将这些字符串拆分为元素等的 StringInfo 类。我只是不确定在为旧值和新值传递字符串时如何进行替换。

谢谢您的帮助！

c#string unicode replace surrogate-pairs

2018-05-04T18:06:35.597

0 投票

1 回答

640 浏览

c# - 什么是可以处理代理对的 String.IndexOf(string input) 的 Unicode 安全副本？

我试图找出一个等效于 C#string.IndexOf(string)的方法，它可以处理 Unicode 字符中的代理对。

仅比较单个字符时，我能够获得索引，如下面的代码所示：

但是，如果我尝试实际使用字符串作为find变量，那么它将不起作用，因为每个文本元素只包含一个要比较的字符。

关于如何写这篇文章有什么建议吗？

感谢您的任何帮助。

编辑：

下面是一个例子，说明为什么这是必要的：

代码

输出

请注意我用值更改替换字符的位置。@

c#string unicode indexof surrogate-pairs

2018-05-04T20:03:05.407

0 投票

1 回答

6912 浏览

utf-8 - UTF-8 中的代理字符是什么？

我有一个奇怪的验证程序来验证 utf-8 字符串是否是有效的主机名（PHP 中的 Zend Framework Hostname valdiator）。它允许 IDN（国际化域名）。它将每个子域与由其 HEX 字节表示定义的字符集进行比较。两个这样的集合是D800-DB7F和DC00-DFFF。在这些比较过程中调用的 PHP 正则表达式比较函数preg_match失败，它表示DC00-DFFF此函数中不允许使用字符。从维基百科我了解到这些字节在 UTF-8 中被称为代理字符。什么是 thay 以及它们实际对应的字符是什么？我读了几个地方我仍然不明白它们是什么。

utf-8 utf surrogate-pairs

2018-06-23T12:27:54.120

0 投票

0 回答

13 浏览

emoji - 如何使用 RegExr 在字符串中的特定短语之后提取所有 18 个字符条目的列表？

我设法在我的表情符号列表中提取方括号内的文本列表：

https://regexr.com/3sqk1

但是现在我需要为每个表情符号提取等效的 decimalSurrogateHtml 对（我知道其中一些有 2 对，但只需提取以下文本右侧的第一对就可以了）

我希望仅提取“decimalSurrogateHtml”右侧的 18 个字符：

有谁知道我应该输入的表达式来检索这些列表？

谢谢

emoji surrogate-pairs regex-recursion

2018-07-22T18:34:28.297

0 投票

1 回答

873 浏览

c# - 在 c# [UWP] 中从 '\ud835' 格式转换为 ""

我有一个带有一些奇怪字符的字符串（例如）" "。我需要检查 List 是否包含字符串中的第一项。但如果我索引它，它总是变成 \ud835. 在使用 Char.ConvertFromUtf32( \ud835) 和其他一些尝试之后，我根本不知道如何将第一项作为“”。

c#.net uwp surrogate-pairs

2018-08-10T23:07:34.463

0 投票

1 回答

344 浏览

python - PYTHON RE 匹配时不要将 UNICODE 字符拆分为代理对

谁知道，在将代码点拆分为代理对时是否可以禁止正则表达式。

请参见以下示例：

现在怎么样了：

我的希望：

为什么我真的需要它，因为我想遍历 unicode 字符串并让每次迭代下一个 unicode 字符。

参见示例：

提前谢谢你=）

python regex unicode surrogate-pairs

2018-08-17T00:04:21.720

0 投票

0 回答

30 浏览

regex - 使用 python2.7 将 unicode 字素作为未拆分的项目

任何想法，如果可以使用正则表达式（python 2.7）将uniq chars unspitted 成unicode graphemes 的代理对？

根据此示例，这可以通过 python 3.x 实现。看这里：

但对于 python 2.7，它似乎不起作用。参见示例：

任何想法如何使它适用于python 2.7？=））））

提前谢谢你！！！=）

regex python-2.7 unicode surrogate-pairs grapheme

2018-08-17T15:06:00.687

1 2 3 4 5 6 7 8 9 10

问题标签 [surrogate-pairs]

Reference