问题标签 [non-ascii-characters]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1882 浏览

character-encoding - 0xDB 在哪种编码中是货币符号?

我收到了文件,遗憾的是,我无法获得有关它们是如何生成的信息。我需要解析这些文件。

除了一个字符之外,该文件完全是 ASCII:0xDB(十进制为 219)。

显然(从查看文件)这个字符是一个货币符号。我知道是因为:

  • 这些文件必须在金额出现的任何地方包含货币符号
  • 文件中没有其他货币符号(既不是 $ 也不是欧元也不是什么都没有)
  • 每次出现 0xDB 时,它都会靠近一个数量

认为在这些文件中 0xDB 应该代表欧元符号(实际上这个 0xDB 很可能出现在应该出现欧元符号的任何地方)。

文件命令说明了这些文件:

一个hexdump给出了这个:

这些文件都是正常格式化/可解析的。实际上,除了那个奇怪的 0xDB 字符之外,我得到的所有信息都很好。

有谁知道发生了什么?货币符号(据说是欧元符号)是如何变成 0xDB 的?

它既不是 ISO-8859-1(又名 ISO Latin 1)也不是 ISO-8859-15,因为在这两种情况下,代码点 219 都对应于 'Û' (就像 Unicode 代码点 219 是'LATIN CAPITAL LETTER U WITH CIRCUMFLEX')。

它不是扩展的ASCII。

0 投票
2 回答
2244 浏览

java - 为什么 US-ASCII 编码接受非 US-ASCII 字符?

考虑以下代码:

观察到的输出:

为什么readAndPrint()(使用 US-ASCII 的那个)的第二次调用成功了?我希望它会引发错误,因为输入不是此编码中的正确字符。Java API 或 JLS 中强制执行此行为的位置是什么?

0 投票
1 回答
332 浏览

c# - Querystring 有额外的外来字符。也许是编码问题?怎么办?

这有点像黑客,但我将一些 JSON API 指向常规的 asp.net (C#) 页面,并且该调用正在发送一个查询字符串。

当我查看 C# 代码中的查询字符串时,它看起来不错,但如果我尝试使用该字符串打开网页,它会中断。如果我计算字符数它说的比我看到的多 6 或 7 个。

我尝试按以下方式删除非 ascii 字符,但没有成功。

当我查看字符串时,我只看到一个看起来像空白的额外字符。

0 投票
1 回答
386 浏览

internet-explorer - IE 下载对话框中的非 ASCII 字符,使用 Drupal6/Filedepot

我正在使用 Drupal6 和 Filedepot 模块将文件存储到 Drupal。下载文件在 Firefox 和 Chrome 上完美运行,但 Internet Explorer 存在一些烦人的问题。

如果文件名包含非 ASCII 字符,就像许多芬兰语单词一样,它会弄乱整个文件名。例如,当下载“Alykkäät teknologiat.doc”时,IE 想要保存具有以下名称的文件:“=_UTF-8_B_bHlra8Okw6R0IHRla25vbG9naWF0LmRvYw==_=”。

有没有办法将该字符串轻松转换回“正常”字符串?

谢谢你的帮助!

0 投票
3 回答
45929 浏览

python - 匹配python正则表达式中的unicode字符

我已经阅读了 Stackoverflow 上的其他问题,但仍然没有接近。对不起,如果这已经得到回答,但我没有得到任何建议在那里工作。

一切都很好,然后我尝试了一些带有挪威字符的东西(或者更像 unicode 的东西):

如何匹配典型的 unicode 字符,例如 øæå?我也希望能够在上面的标签组和文件名中匹配这些字符。

0 投票
2 回答
454 浏览

android - 在 Android 应用上使用非 ASCII 字符是否安全?

我最近注意到我将非 ascii 字符保存到文件中并从文件中读取这些字符。这会导致某些手机崩溃吗?

0 投票
1 回答
431 浏览

python - Python matplotlib 存储库 ubuntu 10.10

亲爱的 matplotlib 用户和开发人员,我只想使用从 subversion-repository 获得的最新版本

svn co https://matplotlib.svn.sourceforge.net/svnroot/matplotlib/trunk/matplotlib/lib/matplotlib/

然后我尝试从 python 加载它,我得到了错误:

原因很清楚,因为我的颠覆安装运行在以俄语为默认语言的机器上。subversion 命令执行以下替换:

有人知道我如何配置 (i)python 以开箱即用吗?提前谢谢你,一切顺利!

0 投票
0 回答
25080 浏览

non-ascii-characters - 查找非ASCII字符

可能重复:
如何在 UNIX 中对非 ASCII 字符进行 grep

我正在努力寻找如何在非常大的 xml 数据文件中找到非 ascii 字符的答案。我不想转换非 ascii 字符,我只想确定字符在数据文件中的位置,以便通知源删除该值。非 ascii 数据(似乎是单个字符)导致我的处理程序失败。不幸的是,错误数据并不能帮助我确定违规字符在文件中的位置。此 XML 数据文件包含数据记录,并且很可能在描述字段或名称字段中。

我曾尝试使用文本工具,但它是一个如此大的文本文件 (>32MB),令人不知所措。有没有办法在 PSPad 或 TextPad 等工具中运行 REGEX 来查找 7 位 ASCII 字符集之外的任何字符?

0 投票
2 回答
4408 浏览

javascript - 带有\b和国际字符的Javascript正则表达式问题

我在简单的正则表达式匹配方面遇到了很多问题。

我有这个带有重音字符的字符串(这只是一个例子)"Botó Entrepà Nadó Facebook! ",我想使用另一个列表中的单词来匹配单词。

这是我的代码的简化版本。例如匹配“ Botó

如果我运行它,它与预期的“”不匹配Botó(Firefox、IE 和 Chrome)。

我认为这是我这边的一个错误。但乐趣来了……

如果我像这样修改字符串"Botón Entrepà Nadó Facebook! "(注意“ n”之后的“ Botó”)并运行相同的代码:

它匹配“ Botó”!!!!??????(至少在 Firefox 中)。这对我来说没有意义,因为“ n”不是单词边界(由 匹配\b)。

如果您尝试匹配整个单词:

有用。

为了让它更奇怪一点,我们在末尾添加了另一个重音字母。

如果我们尝试匹配它,它不会匹配任何东西。但是,如果我们尝试这个

它匹配“ Botóñ”。这是错误的。

如果我们尝试匹配“Facebook”,它会按预期工作。如果您尝试匹配带有中间重音的单词,它会按预期工作。但是,如果您尝试匹配末尾带有重音的单词,则会失败。

我究竟做错了什么?这是预期的行为吗?

0 投票
2 回答
2647 浏览

python - 如何检查第一个字符是ñ - Django

我从一个表格中得到一个词,为了把它弄脏,我想区分它。

如果我得到'Ñandu'这个词,使用django的slugify,slug变成'nandu'。如果我得到“Nandu”这个词,那么蛞蝓也会变成“nandu”。

所以我决定如果单词以'Ñ'开头,那么slug将变成'word_ene'。

问题是我找不到检查输入中的第一个字符是否真的是“ñ”(或“ñ”)的方法。

我已经尝试过 self.palabra[0]==u"ñ" 和 self.palabra[0]=="ñ" 之前有和没有编码 palabra。但我不能去上班。

提前致谢。