问题标签 [ucs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
1554 浏览

c++ - C++ 代码中的 UTF 用法

UTF 和 UCS 有什么区别。

在 C++ 字符串中表示非欧洲字符集(使用 UTF)的最佳方法是什么。我想知道您对以下方面的建议:

  • 代码内部的表示
    • 用于运行时的字符串操作
    • 用于将字符串用于显示目的。
  • 最佳存储表示(在文件中)
  • 最佳有线传输格式(在可能位于不同架构且具有不同标准语言环境的应用程序之间传输)
0 投票
4 回答
46997 浏览

.net - System.Speech.Recognition 和 Microsoft.Speech.Recognition 有什么区别?

.NET 中有两个用于语音识别的类似命名空间和程序集。我试图了解差异以及何时适合使用其中一种。

有来自程序集 System.Speech 的 System.Speech.Recognition(在 System.Speech.dll 中)。System.Speech.dll 是 .NET Framework 类库 3.0 及更高版本中的核心 DLL

还有来自 Microsoft.Speech 程序集的 Microsoft.Speech.Recognition(在 microsoft.speech.dll 中)。Microsoft.Speech.dll 是 UCMA 2.0 SDK 的一部分

我发现文档令人困惑,我有以下问题:

System.Speech.Recognition 说它用于“Windows 桌面语音技术”,这是否意味着它不能用于服务器操作系统或不能用于大规模应用程序?

UCMA 2.0 语音 SDK ( http://msdn.microsoft.com/en-us/library/dd266409%28v=office.13%29.aspx ) 说它需要 Microsoft Office Communications Server 2007 R2 作为先决条件。但是,我在各种会议上被告知,如果我不需要 OCS 功能(如存在和工作流),我可以在没有 OCS 的情况下使用 UCMA 2.0 Speech API。这是真的?

如果我正在为服务器应用程序构建一个简单的识别应用程序(比如我想自动转录语音邮件)并且我不需要 OCS 的功能,那么这两个 API 之间有什么区别?

0 投票
1 回答
1005 浏览

utf-8 - RFC 3986 中关于非英文字符的“不区分大小写”是什么意思?

RFC 3986 指定 URI 的主机组件是“不区分大小写”的。但是,它没有指定 UCS 或 UTF-8 字符中“不区分大小写”的含义。

RFC 中给出的示例(例如“ <HTTP://www.EXAMPLE.com/> 等同于<http://www.example.com/>”)允许我们推断“不区分大小写”意味着字符 AZ 至少被认为等同于 UTF-8 字符集中它们前面的字符 32,即AZ 但是,没有提到应该如何处理超出此范围的字符。因此,鉴于www.OLÉ.com的非编码、非规范化注册名称,我看到 RFC 允许的三种潜在规范化形式:

  1. 小写到 www.olé.com然后百分比编码到 www.ol%E9.com
  2. 仅小写 AZ 字符到www.olÉ.com,然后百分比编码到 www.ol%C9.com
  3. 百分比编码为 www.OL%C9.com,然后将非百分比编码部分小写为 www.ol%C9.com,产生与 2 相同的结果。

所以问题是:哪个是正确的?如果是 case 1.,什么定义了哪些字符被认为是大写的,哪些被认为是小写的(哪些字符没有大小写)?

0 投票
2 回答
2306 浏览

unicode - 为什么我们需要 UCS 和 Unicode 字符集?

我猜 UCS 和 Unicode 的代码点是一样的,对吗?

在那种情况下,为什么我们需要两个标准(UCS 和 Unicode)?

0 投票
1 回答
1392 浏览

linux - Numpy 需要 ucs2

我已经使用 ActivePython 安装了 Numpy,当我尝试导入 numpy 模块时,它抛出以下错误:

ImportError:/opt/ActivePython-2.7/lib/python2.7/site-packages/numpy/core/multiarray.so:未定义符号:PyUnicodeUCS2_FromUnicode

我对python相当陌生,我不知道该怎么做。如果您能指出正确的方向,我将不胜感激。

  • 我应该删除 python 并使用“--enable-unicode=ucs2”或“--with-wide-unicode”选项配置它的编译吗?

干杯


  • 操作系统:Fedora 16、64 位;
  • Python 版本:Python 2.7.2(默认,2012 年 3 月 26 日,10:29:24);
  • 当前编译的Unicode版本:ucs4
0 投票
1 回答
3581 浏览

dijkstra - Dijkstra 算法与统一成本搜索(时间复杂性)

我的问题如下:根据不同的消息来源,Dijkstra 的算法只不过是统一成本搜索的一种变体。我们知道 Dijkstra 的算法会找到源和所有目的地(单源)之间的最短路径。但是,我们总是可以修改 Dijkstra 以找到 START 和 GOAL 状态之间的最短路径(当目标从优先级队列中弹出时,我们只需停止);但是这样做,最坏的情况仍然是找到从 START 到所有其他节点的最短路径(假设目标是图中最远的节点)。

如果我们使用最小优先级堆实现 Dijkstra 算法,运行时间将为 O(V log V +E) ,其中 E 是边数,V 是顶点数。

既然 Uniform Cost Search 和 Dijkstra 一样(实现方式略有不同),那么 UCS 的运行时间应该和 Dijkstra 差不多吧?然而,根据我的 AI 课程,统一成本搜索在最坏的情况下是指数级的,它需要 O(b 1 + [C*/ε] ),其中 C* 是最优解决方案的成本。( b 是分支因子)

两种算法如何在运行时间不同的情况下相同?运行时间是一样的,但我们看待它的方式不同吗?

我会很感激你的帮助:):) 谢谢

0 投票
1 回答
289 浏览

c++ - c ++:如何将任何文件读入std :: string

我有一堆 txt 文件,想将它们读入 std::string,其中一些是 UCS-2、UTF-8 编码的。如何将它们读入 std::string。我只想将任何文本文件读入 std::string。我必须转换它们吗?

0 投票
1 回答
981 浏览

linux - 使用 ucs4 问题构建 numpy

我已经成功安装了 ucs4 格式的 python2.7。

如果我使用以下命令安装 numpy:sudo pip install --upgrade numpy,它可以工作并且我可以使用它,但是通过这种方式安装只会将 numpy 放入我的 dist-packages,但是它需要在 site-packages 中。(因为 Jepp 只能在那里找到它们)

因此,我下载了 numpy tar 文件,构建了它(sudo python setup.py build)并安装了它(sudo python setup.py install),但它给了我未定义的符号:PyUnicodeUCS2_FromUnicode。对我来说,它用ucs2安装了numpy。

我如何强制使用 ucs4 安装 numpy?(我读过这篇文章:Numpy 需要 ucs2但 EPD 不是我的解决方案)

任何想法都可以帮助我!提前致谢。

0 投票
1 回答
14670 浏览

python - 如何将 python 从 UCS2 更改为 UCS4

我在 Ubuntu 12.10 上安装了带有 UCS2 构建的 Python2.7。我只想用 UCS4 重新编译 python 或启用 UCS4。我该怎么做?

0 投票
2 回答
424 浏览

regex - 当字符串包含非拉丁字符时,Perl 在制表符上使用 split() 函数时出现问题

我正在修改一个 Perl 脚本,该脚本读取一系列 UCS-2LE 编码文件,其中包含制表符分隔格式的字符串,但是当字符串包含扩展之外的字符时,我无法拆分制表符上的字符串拉丁字符集。

这是我从这些文件中读取的示例行(制表符分隔):

当我让脚本将这些行写入输出文件以尝试调试此问题时,它正在编写以下内容:

似乎它没有识别土耳其字符之后的制表符。这只发生在单词以非拉丁字符结尾(因此与制表符相邻)时。

这是代码块的一部分,其中发生写入输出文件并发生字符串拆分:

该脚本的目的是检查输入文件中每一行的语言代码是否有效,并根据该代码,根据我们的转录系统检查每个单词的转录是否“合法”。

这是我到目前为止所尝试的:

  1. 将输入字符串的编码更改为 UTF-8、UTF-16 或 UTF-16LE
  2. 将 split() 字符更改为 '\w'、/[[:blank:]]/、\p{Blank}、\x{09} 和 \N{U+0009}。
  3. 阅读 Perl Unicode 和 perlrebackslash 文档以及我能够在各个站点上找到的任何其他远程相关的帖子

有人对我可能尝试的其他事情有任何建议吗?提前致谢!

我还应该提到,我无法控制输入文件编码和输出文件编码;我必须阅读 UCS-2LE 并输出 UTF-8。