问题标签 [unicode-string]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
13929 浏览

c++ - UTF-8 char * 到 CString 的转换

如何将 UTF-8 char* 中的字符串转换为 CString?

0 投票
3 回答
1016 浏览

c - C:从 UTF-8 字符串中确定 UTF-16 字符串需要多少字节的最有效方法

我已经看到了一些非常聪明的代码,用于在 Unicode 代码点和 UTF-8 之间进行转换,所以我想知道是否有人拥有(或喜欢设计)这个。

  • 给定一个 UTF-8 字符串,相同字符串的 UTF-16 编码需要多少字节。
  • 假设 UTF-8 字符串已经过验证。它没有 BOM,没有过长的序列,没有无效的序列,是空终止的。它不是CESU-8
  • 必须支持带有代理项的完整 UTF-16。

具体来说,我想知道是否有捷径可以知道何时需要代理对,而无需将 UTF-8 序列完全转换为代码点。

我见过的最好的 UTF-8 到代码点代码使用矢量化技术,所以我想知道这是否也可能在这里。

0 投票
3 回答
9897 浏览

c - UTF-16 字符串终止符

UTF-16 字符串的字符串终止符序列是什么?

编辑:

让我重新表述这个问题以试图澄清。上班的电话怎么样wcslen()

0 投票
1 回答
7533 浏览

c++ - 根据 MSVC++ 中的 unicode 设置在 std::string 和 std::wstring 之间自动切换?

我正在编写一个 DLL,并希望能够在 MSVC++2010 中的 unicode 和多字节设置之间切换。例如,我使用_T("string")andLPCTSTRWIN32_FIND_DATA而不是 -W 和 -A 版本等等。

现在我想让 std::strings在 unicode 设置std::string之间变化。std::wstring那可能吗?否则,这可能最终会变得非常复杂。

0 投票
3 回答
133 浏览

c++11 - C++0x 函数删除 - 删除除某些类型之外的所有类型

在 C++0x 中,我可以这样做:

防止f()在除double.

我正在尝试做的是相似的,但是,并不完全相同。

我有一个对指针数组进行操作的函数。例如:

我希望能够让 T 为 char、char16_t 和 char32_t 工作,但不能为任何其他类型工作。我在想 C++0xdelete将是实现这一目标的好方法。基本上,我希望能够防止此函数使用不是三种 Unicodechar类型之一的任何类型,但我仍然希望获得函数模板的好处,它允许我概括类型并避免重复代码。

解决这个问题的最佳方法是什么?是否可以?

0 投票
1 回答
2767 浏览

python - 与 if 条件中的 unicode 字符串比较(python)

可能重复:
Python '==' vs 'is' 比较字符串,'is' 有时会失败,为什么?

我将跳过我告诉你我如何测试我的代码并直接跳到问题的部分。

Python 似乎在将 unicode 字符串拆分为 if 语句中的另一个内联 unicode 字符串时遇到了一些问题。

这是我的实际代码片段

如果我将“不是”更改为!= 代码工作正常!

有谁知道为什么“是”导致比较失败?

0 投票
2 回答
41453 浏览

python - 将 hash.digest() 转换为 unicode

字符串必须是 unicode 才能对我有用,可以这样做吗?如果有帮助,请使用 python 2.7...

0 投票
2 回答
1616 浏览

vb.net - 如何检查字符串是 UNICODE vb.net

有什么方法可以使用 VB.net 检查字符串是否为 UNICODE。

最好的问候 inchikka

0 投票
3 回答
1383 浏览

c++ - Visual Studio 2010 是否支持 Unicode 中的 C++ 源代码和字符串文字中的 Unicode 字符

我想直接在字符串文字中嵌入非 ASCII Unicode 字符并在printf中使用它们。这意味着我的源代码必须保存在 utf-8 或 utf-16 中。Visual Studio 2010 确实支持以任一格式编辑和保存 C++ 源文件。但是在编译和执行时,它不会产生正确的 unicode 字符。编译器是否支持嵌入了 unicode 字符的字符串文字?

例如

0 投票
1 回答
1427 浏览

java - 来自 Servlet 的字符串,带有 XML CDATA 中的控制字符

我的问题类似于为什么 XML 1.0 中的“控制”字符是非法的?- 但是我正在寻找解决以下问题的方法,而不是为什么 XML 规范不允许 XML 中的控制字符。

我有一个 servlet,它根据用户请求打印一个包含 XML 的字符串。一个特定元素包含一个 CDATA 部分,该部分需要包含一些用户输入文本。

现在碰巧在一种特殊情况下,我们的用户输入包含字符 U+0001(控制字符)。即使我将字符集指定为 UTF-8,servlet 也会引发错误:

有没有办法可以处理 Java 字符串以使其“XML 安全”?特别是,在放入 CDATA 部分时使其安全?

我希望我的问题很清楚!

在此先感谢,拉吉