问题标签 [mojibake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
utf-8 - 日文 SRT 文件乱码,无法确定要使用 iconv 修复的编码
我有一个 srt 文件,摘录:
据说这些是日文字幕,但显然是编码问题造成的乱码。我试图弄清楚如何纠正它并最终转换为 UTF-8。有人有想法么?
文件输出:UTF-8 Unicode(带 BOM)文本,带 CRLF 行终止符
可在此处获取文件进行测试: http ://www.opensubtitles.org/en/subtitles/5040215/the-incredible-burt-wonderstone-ja
python - \\u00c3\\u00a9 在什么世界会变成é?
我有一个来自我无法控制的来源的可能编码不正确的 json 文档,其中包含以下字符串:
由此,我收集到他们打算成为\u00c3\u00a9
beceom é
,这将是 utf-8 hex C3 A9
。这有点道理。对于其他人,我假设我们正在处理某些类型的定向引号。
我的理论是,这要么使用了我以前从未遇到过的某种编码,要么以某种方式被双重编码。我很好地编写了一些代码来将他们损坏的输入转换为我能理解的东西,因为如果我引起他们的注意,他们不太可能修复系统。
有什么想法可以强迫他们输入我能理解的东西吗?作为记录,我正在使用 Python。
.net - DotNetZip - 提取包含非 ascii 字符的文件
我正在尝试提取包含包含日语字符的文件的 zip 存档。
当我提取后查看它们的内容时,日文字符显示为乱码。Winrar/Winzip 也会发生这种情况,这就是我打算创建这个程序的原因。
起初我的文件名也有这个问题,但我用下面的代码中的编码解决了这个问题。
我尝试了各种尝试使文件内容正确编码的方法,但都失败了。当我创建一个包含日文字符的文本文件并将其保存为 UTF8 并将其添加到新的 zip 存档中,然后使用以下代码将其解压缩时,内容输出正确。
但是我下载了几个 zip 文件,它们的行为方式不同,而是包含乱码。我有一个朋友没有遇到同样的问题,所以我 100% 确定这不是文件的编码问题,她使用的是日语系统区域设置,而我使用的是英语,但我希望能够在没有这些文件的情况下提取这些文件切换系统区域设置。
python - python unicode 获取值/获取文本
假设我有一个 unicode 变量:
我想要一个字符串,它与 相同uni_var
,只是没有“u”,所以:
我该怎么做?我想找到类似的东西:
mysql - MySQL - 将 ANSI 转换为 Unicode
不知何故,MySQL 数据库中的数据已从 Unicode 转换为 ANSI,导致系统中的许多符号显示不正确。
符号现在显示如下:
- ——</li>
- ?</li>
- ₸</li>
- Ω
- 等等
我想将其转换回 Unicode ......
我试过了:
- 将数据库重新导入为 UTF8 字符集
- 使用记事本++“转换为 UTF8...”
- 将默认字符集 UTF8 添加到 Apache 配置...
- 一个 PHP 脚本,它获取所有数据库和表,复制它们,转换数据,然后重新创建原始数据库。
这些方法没有奏效......他们似乎只是让我的数据保持原样,但任何未来使用符号的尝试都可以正常工作。
我想将这些现有的误解转换回原来的形式!
来自数据库的示例文本的十六进制输出。
这相当于: SELECT hex('☼STICKY☼');
输出:C3A2CB9CC2BC535449434B59C3A2CB9CC2BC
python - 使用python识别垃圾Unicode字符串
我的脚本是从 csv 文件中读取数据,csv 文件可以有多个英文或非英文单词字符串。
有时文本文件有垃圾字符串,我想识别这些字符串并跳过这些字符串并处理其他字符串
csv输入:
我想破坏函数 is_valid_unicode_str() ,它将识别垃圾字符串并仅处理有效字符串。
我尝试使用 decode is 但它在解码垃圾字符串时没有失败
预期输出为待处理的中英文字符串
你能指导我如何实现过滤有效Unicode文件的功能吗?
python - Python:增加特殊字符Í
我想从 excel 文件中读取一些单词并提取一些信息。读取文件没有问题。
关键是,我想增加一个单词的最后一个字符。对于像“A”这样的普通字符来说没有问题。但是像“Í”这样的特殊字符是个问题。
我阅读了以下内容:
我把这个值放在字典里。
下一步是遍历dict并获取保存的信息。info['streettype'] 包含我之前的 val。现在我将值转换为大写,如下所示:
这是必要的,因为有些字符是特殊的,就像我说的(例如'é'、'ž'、'í')。现在我想增加单词的最后一个字符,它可以是一个特殊字符。
现在我使用以下方法增加字符:
接下来我想将它保存在一个文本文件中。我想保存原始单词和编辑后的单词。我想我需要重新编码我的 lastLetter2,但它不起作用。当我只保存我的 w2 和 w3+lastLetter2 时,我得到了奇怪的结果,因为有些是编码的,有些不是。
对于这个词:
我的结果是:
但我想要:
(Í 是 ascii 205,Î 是 ascii 206)
有人可以帮我解决这个问题吗?
python - 比较 ISO-8859-1 和 UTF-8
我有一个包含 unicode 字符串的文件:u"L'\xe9quipe le quotidien"
我有另一个文件,从 Windows 导出并iso-8859-1
使用相同的字符串进行编码:("L'<E9>quipe le quotidien"
这是我 shell 中的复制/粘贴less
)。
将 Windows 文件的内容转换为与 Windows 文件decode('iso-8859-1').encode('utf8')
中的字符串不同的字符串:L'équipe le quotidien
.
进行这种比较的最佳方法是什么?我似乎无法将 latin1 字符串转换为 utf-8。
python - Unicode 规范化
是否有可能的规范化路径使下面的两个字符串达到相同的值?
u'Aho\xe2\u20ac\u201cCorasick_string_matching_algorithm'
u'Aho\u2013Corasick string matching algorithm'