问题标签 [surrogate-pairs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 R 统一日文“dakuten”字符中的代理对
我试图将日语字符串向量(最初从逗号分隔的文件中导入)与从 Mac OSX 下的文件夹中提取的文件名列表进行匹配。
向量中的一个元素是a
:
文件名中的相应元素是b
问题是它们在 R 中在逻辑上并不相等:
我已经发现这是日本“dakuten”字符的代理对出现的问题(即通过添加额外点从け扩展的げ字符)。因此,它们实际上彼此不同:
如何转换这两个版本的相同日文字符,以便它们可以使用 R 进行有效匹配(即它们应该相同)?
python - UnicodeEncodeError:“utf-8”编解码器无法在位置 1 编码字符“\udc43”:不允许代理
我有一个包含的列表placenames
,我想创建另一个数组,最初为空,然后迭代列表placenames
并用这些填充我的空数组placenames
。
例如,我的第一个位置是并通过以下方式访问列表'CHARTRIDGE'
中的此元素:LOCARY
LOCARY[S[0][0]]
'CHARTRIDGE'
我创建了一个空数组:LOCLIST = np.empty([len(LOCARY),1])
然后我写了一个for
循环来填充它使用的项目LOCARY
:
但我得到了错误:
UnicodeEncodeError:“utf-8”编解码器无法在位置 1 编码字符“\udc43”:不允许代理
我想知道它是否不喜欢'
.placename
任何帮助将不胜感激,谢谢。
perl - 如何在 perl 中显示字符串中的代理对
我正在使用 perl 代码库来验证客户输入,我的目标是阻止代理字符。
我的想法是首先将客户输入编码为 UTF-16 和
但是,我没有从 Encode::encode 获得正确的 UTF-16 值。
如何显示代理对?是否有任何直接的方法来验证字符串是否包含 Perl 中的代理字符?
c# - 对于代理对,String.Replace(string,string) Unicode 安全吗?
我试图找出创建一个等效于String.Replace("oldValue","newValue");
可以处理代理对的函数的最佳方法。
我担心的是,如果字符串中有代理项对,并且存在与代理项对的一部分匹配的字符串,那么它可能会拆分代理项并具有损坏的数据。
所以我的高级问题是:对于 Unicode 和代理对来说,这是一种安全的操作吗?String.Replace(string oldValue, string newValue);
如果不是,那么最好的前进道路是什么?我熟悉可以将这些字符串拆分为元素等的 StringInfo 类。我只是不确定在为旧值和新值传递字符串时如何进行替换。
谢谢您的帮助!
c# - 什么是可以处理代理对的 String.IndexOf(string input) 的 Unicode 安全副本?
我试图找出一个等效于 C#string.IndexOf(string)
的方法,它可以处理 Unicode 字符中的代理对。
仅比较单个字符时,我能够获得索引,如下面的代码所示:
但是,如果我尝试实际使用字符串作为find
变量,那么它将不起作用,因为每个文本元素只包含一个要比较的字符。
关于如何写这篇文章有什么建议吗?
感谢您的任何帮助。
编辑:
下面是一个例子,说明为什么这是必要的:
代码
输出
请注意我用值更改替换字符的位置。
@
utf-8 - UTF-8 中的代理字符是什么?
我有一个奇怪的验证程序来验证 utf-8 字符串是否是有效的主机名(PHP 中的 Zend Framework Hostname valdiator)。它允许 IDN(国际化域名)。它将每个子域与由其 HEX 字节表示定义的字符集进行比较。两个这样的集合是D800-DB7F
和DC00-DFFF
。在这些比较过程中调用的 PHP 正则表达式比较函数preg_match
失败,它表示DC00-DFFF
此函数中不允许使用字符。从维基百科我了解到这些字节在 UTF-8 中被称为代理字符。什么是 thay 以及它们实际对应的字符是什么?我读了几个地方我仍然不明白它们是什么。
emoji - 如何使用 RegExr 在字符串中的特定短语之后提取所有 18 个字符条目的列表?
我设法在我的表情符号列表中提取方括号内的文本列表:
但是现在我需要为每个表情符号提取等效的 decimalSurrogateHtml 对(我知道其中一些有 2 对,但只需提取以下文本右侧的第一对就可以了)
我希望仅提取“decimalSurrogateHtml”右侧的 18 个字符:
有谁知道我应该输入的表达式来检索这些列表?
谢谢
c# - 在 c# [UWP] 中从 '\ud835' 格式转换为 ""
我有一个带有一些奇怪字符的字符串(例如)" "
。我需要检查 List 是否包含字符串中的第一项。但如果我索引它,它总是变成 \ud835
. 在使用 Char.ConvertFromUtf32( \ud835
) 和其他一些尝试之后,我根本不知道如何将第一项作为“”。
python - PYTHON RE 匹配时不要将 UNICODE 字符拆分为代理对
谁知道,在将代码点拆分为代理对时是否可以禁止正则表达式。
请参见以下示例:
现在怎么样了:
我的希望:
为什么我真的需要它,因为我想遍历 unicode 字符串并让每次迭代下一个 unicode 字符。
参见示例:
提前谢谢你=)
regex - 使用 python2.7 将 unicode 字素作为未拆分的项目
任何想法,如果可以使用正则表达式(python 2.7)将uniq chars unspitted 成unicode graphemes 的代理对?
根据此示例,这可以通过 python 3.x 实现。看这里:
但对于 python 2.7,它似乎不起作用。参见示例:
任何想法如何使它适用于python 2.7?=))))
提前谢谢你!!!=)