问题标签 [unicode-normalization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
863 浏览

macos - OS X 文件名中的变音符号 (perl)

我在 OS X 上的文件名中遇到了变音符号(ü 字符)的问题。我正在从 perl 脚本创建目录。从概念上讲,我正在做的是:

这将创建名为 的文件夹"/Applications/MyProgram/abs%9Fabc/"

任何人都知道如何解决这个问题以创建具有正确字符的目录?

0 投票
1 回答
7934 浏览

javascript - 如何搜索忽略重音字符的字符串(例如ã = a)

可能重复:
JavaScript 中的程序化重音减少(又名文本规范化或非重音)

我试图找到一个忽略重音的字符串,所以在我的例子中,如果我搜索aviãoaviao我总是得到两个结果。这是一个启动...

样本

0 投票
2 回答
1092 浏览

php - 如何修复 iTunes Feed 上的 Unicode 字符问题

我正在尝试使用他们授权的平面提要从 Apple App Store 中提取应用程序。但是,我很难处理编码问题。这里有些例子 :

一款名为的日文应用

ホームページ用和英辞典</p>

显示为

ホームペーã,¸ç”¨å'Œè‹±è¾žå</p>

不仅如此,即使是常用的特殊字符,如'(撇号)、'(引号),也会显示为像’和“这样的字符。

有人可以帮我解决这个问题吗?

编辑添加:我正在使用 PHP

0 投票
2 回答
4555 浏览

arrays - 更改数组 Delphi 中的特殊字符

我得到的一些字符串是 UTF-8 编码的,并且包含一些特殊字符,如 Å¡、Ä'、Ä 等。我StringReplace()用来将它转换为一些普通文本,但我只能转换一种类型的字符。因为 PHP 还具有替换字符串的功能,如下所示:如何用 PHP 中基于的字符替换特殊字符?,但它支持数组:

我怎么能在德尔福做到这一点?StringReplace不支持数组。

0 投票
1 回答
416 浏览

perl - Unicode-ready wordsearch - 问题

这段代码可以吗?我真的不知道我应该使用哪种规范化形式(我唯一注意到的是NFD我得到了错误的输出)。

0 投票
1 回答
427 浏览

perl - Unicode::Normalize - 查询“Normalization From”

输出:

好的
好的

在尝试了这个之后,我问我:有没有理由使用 theNormalization Form D而不是Normalization Form C

0 投票
3 回答
4887 浏览

windows - Windows 中的 Unicode 规范化

我一直在 Windows 中使用“unicode 字符串”……我已经了解了 Unicode(例如毕业)。然而,Win32API 非常松散地提到“unicode”总是让我感到困惑。特别是,MSN 提到的“unicode”变体是 UTF-16(尽管“宽字符”术语来源于它曾经是 UCS-2,而不是 Unicode)。但是,它几乎没有提到 Unicode 规范化。

MSN 有几页关于UnicodeUnicode 规范化形式以及更改规范化形式的功能。规范化页面甚至说:

Win32 和 .NET Framework 支持所有四种规范化形式。

但是,我在文档中的任何地方都没有找到 Win32 API 使用(或理解)什么规范化形式。

问题1:默认情况下用户输入(例如Edit控件)和转换使用什么规范化形式MultiByteToWideChar()

问题 2:传递给 Win32API 函数的字符串必须采用特定的规范化形式,还是内核和文件系统规范化不可知?

0 投票
1 回答
2250 浏览

javascript - 如何检查 Javascript 中 Unicode 字符串的相等性?

我在 Javascript 中有两个字符串:("_strange_chars_µö¬é@zendesk.com.eml"f1"_strange_chars_µö¬é@zendesk.com.eml"f2)。乍一看,它们看起来相同(实际上,在 StackOverflow 上,它们可能是相同的;我不确定将它们粘贴到这样的表单中会发生什么。)但是,在我的应用程序中,

也就是说, wheref1使用ö字符,f2使用o和变音符号¨作为单独的字符。我可以做哪些比较来显示这两个字符串“相等”?

0 投票
2 回答
924 浏览

gwt - 在 GWT 中将 éàçè... 替换为等效的“eace”

我试过 s=Normalizer.normalize(s, Normalizer.Form.NFD).replaceAll("[^\\p{ASCII}]", ""); 但似乎 GWT API 没有提供这样的功能。

我也试过:

但这也不起作用

场景是我正在尝试从单击的小部件文本中生成令牌以进行历史管理

0 投票
4 回答
14795 浏览

javascript - JavaScript Unicode 规范化

我的印象是 JavaScript 解释器假定它正在解释的源代码已经被规范化。什么,归一化到底是什么?它不能是文本编辑器,否则源的明文表示会改变。是否有一些“预处理器”进行标准化?