问题标签 [mojibake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
876 浏览

character-encoding - 辛普森一家的这个 mojibake/krakozyabry 说了什么?

在辛普森一家的第 12 季第 7 集“The Great Money Caper”中,我注意到几年前俄罗斯宇宙飞船上的“胡言乱语”标志。今天随机,我决定搜索并查看是否有人解码它们但找不到任何结果。

两名俄罗斯人在宇宙飞船上争吵的情节截图。 可以看到墙上有两个显示乱码的迹象。

我怀疑是 KOI8-R 显示为 Latin-1 或 Windows-1252。我可以抓取的图像不是很清晰。

如 Python 3 代码解释器交互所示,我对 mojibake 有两种解释:

查看维基百科上的代码图表,我无法弄清楚“<”-like 和“+”-like 符号是什么。我考虑过暴力破解并将其与某种拼写检查字典匹配,但我宁愿先获得一些帮助。

原文或意思还能恢复吗?还是真的是胡言乱语?

(如果有人知道它在说什么,我很感激,但我想看看是否有可能通过一些代码来解决这个问题。)

编辑:一个天真的脚本:

0 投票
2 回答
747 浏览

asp.net - 导出 excel 后显示的 Mojibake 字符

我不确定是否有人遇到过这个问题。以下是复制问题的步骤。

步骤: 1. 进入列表 --> 联系人页面。2. 单击“导出”按钮为联系人列表生成 .XLS 报告。3. 关闭 .XLS 报告并导航到其他页面,例如联系人列表。4. 在联系人列表中,单击“关闭”按钮重定向回“联系人”列表页面。

预期: - 页面应显示联系人列表页面。

实际: - 显示包含 mojibaki 字符的奇怪页面。请查看此网址中的图片http://i.imgur.com/dIsZc.png

以下是使用活动报告生成 excel 的代码:

私有静态无效 PushContentToHttp(ActiveReport 报告,MemoryStream msData,字符串文件名,字符串 url){

任何帮助将不胜感激!太感谢了!:)

0 投票
1 回答
1008 浏览

python - 使用 Python 和 mutagen 进行去mojibaking

我正在阅读 mojibaked ID3 标签mutagen。我的目标是在学习编码和 Python 处理的同时修复 mojibake。

我正在使用的文件有一个ID3v2标签,我正在查看它的专辑 ( TALB) 帧,根据TALBID3 帧中的编码字节,它以 Latin-1 ( ISO-8859-1) 编码。然而,我知道这个帧中的字节是用cp1251(西里尔文)编码的。

到目前为止,这是我的代码:

现在,如您所见,mp3['TALB'].text[0]这里表示为 Unicode 字符串。但是,它是mojibaked:

我在将这些cp1251字节转码为正确的 Unicode 代码点时运气不佳。到目前为止,我的最好成绩非常不合时宜:

据我了解这种方法,它之所以有效,是因为我最终将 Unicode 字符串转换为 8 位字符串,然后我可以将其解码为 Unicode,同时指定我要解码的编码。

问题是我不能decode('cp1251')直接使用 Unicode 字符串:

有人可以解释一下吗?ascii当直接对u''字符串进行操作时,我无法理解如何使它不解码为 7 位范围。

0 投票
1 回答
53815 浏览

python - 将 UTF-8 字符串作为内容的 unicode 转换为 str

我正在使用 pyquery 来解析页面:

但我得到的content是一个带有 utf-8 编码内容的 unicode 字符串:

我怎样才能在str不丢失内容的情况下将其转换为?

说清楚:

我想conent == '\xe5\xb1\x82\xe5\x8f\xa0\xe6\xa0\xb7\xe5\xbc\x8f\xe8\xa1\xa8'

不是conent == u'\xe5\xb1\x82\xe5\x8f\xa0\xe6\xa0\xb7\xe5\xbc\x8f\xe8\xa1\xa8'

0 投票
5 回答
66918 浏览

c# - 将特殊字符(例如 ü 和 Ã)转换回 C# 中的原始拉丁字母对应字符

我从 MySQL 数据库中得到了一个导出,随着时间的推移,它的编码似乎有些混乱,并且包含HTML char codes诸如& uuml;和更多问题字符的混合,代表相同的字母,例如üÃ。我的任务是使文件恢复一些一致性并将所有内容都转换为正确的拉丁字符,例如úó.

我正在处理的那种字符串的一个例子是

Desinfektionslösungstücher für Flächen

这应该等于

C#/.Net 4.5 中是否有一种方法可以成功地重新编码üÃto之类的方法UTF-8

否则什么方法是可取的?

上面示例字符串中的段落字符也是实际的段落字符还是其他字符组合的一部分?

在需要查找和替换的情况下,我创建了一个查找表,如下所示,但是我不确定它的完整性。

0 投票
0 回答
974 浏览

java - Netbeans 是否支持非英语语言?

Netbeans 真的支持 unicode (UTF-8),还是更好,它真的支持非英语语言?

我玩过一些 java 和 Netbeans,但遇到了一些问题。我可以认为这是java的问题,但我不这么认为。

  1. 我需要将文件从某种编码转换为 UTF-8,我认为这样做非常简单,因为 JEdit(一个简单的文本编辑器)和许多简单的文本编辑器默认支持它。可悲的是,印象深刻的是,我发现没有某种插件的 Netbeans 是不可能的。在这个错误中看到类似的东西。因为惊喜,我放弃了,然后又回到了 JEdit。

  2. 几天后,让我们再试一次,但现在,遇到了与其他错误类似的问题,而是使用葡萄牙语(变音符号不起作用)。在jar 文件名ç中被替换为。_必须手动修复项目属性中的文件名。好的,通过。

  3. 同样是 2) 中描述的问题,但现在已知Mojibake一词是我在 jar 文件中的文件名中看到的,在 MANIFEST.MF 文件中çã被替换为, 。çã

他们不是说所有的项目都应该是 UTF-8 吗?那么为什么“他们”制作的 MANIFEST.MF 不是呢?


环境

  • 网豆:7.3
  • JDK:7 更新 17
  • 操作系统:Windows 7
  • 地区:葡萄牙语(巴西)

更新

dist/ 文件夹下生成的 README.TXT 也有同样的问题。但是现在在netbeans中它显示为小方块。

我检查了项目中指定的编码,至少源代码似乎是 UTF-8。在我的 netbeans 中,它在项目属性>“Códigos-fonte”中找到,然后是“Codificação”(编码)。


解决方案

翻译成美式英语

  • 将涉及 Java 开发环境的所有内容翻译成美国英语。
  • 开始自学英语,也许,也教其他人。

使用 bat 文件构建应用程序

注意:我已经在我的环境中进行了测试,并且可以正常工作。

您可以使用 Netbeans 编辑您的文件,而无需使用它构建任何内容,只需编辑源文件即可。

这是一个非常简单的示例,因此您可以从以下内容开始(记得保存为 UTF-8):

C:\在您的项目文件夹中\builder.bat


结论

这是一个非常棒的 IDE,有这么多的特性,为什么会这样呢?

Unicode 并不新鲜,即使在 Windows 中...

我真的理解用一种语言维护一个项目的困难,我能想到用多种语言可能会是什么!所以,对于阅读它的开发人员,我很抱歉,我并不是负面地批评它,我真的很想知道这个 IDE(甚至整个 Java 开发环境)是否可以在英语以外的其他语言中使用。

也可以看看

对于一个简单的文本编辑器(你会在那里找到 JEdit):https ://stackoverflow.com/questions/1182071/lightweight-java-ide 。

0 投票
1 回答
169 浏览

php - 提交表单时,Mojibake 回复电子邮件(但不是每次)

我希望这不是一个太具体的问题......任何想法都值得赞赏。

当有人填写我的联系表格(UTF-8 编码)时,数据会正确进入 MySQL 数据库(始终采用 UTF-8 编码),并且会向填写表格的人发​​送一封回复电子邮件(也是 UTF-8 编码)。

如果数据是用英文输入的,一切都很好。如果数据以日文输入,则字符在数据库中正确呈现,回复电子邮件(从数据库中获取他们的姓氏和名字,也完全用日文编写)也能正确呈现。都很好,对吧?

但有时,回复电子邮件会将字符呈现为 Mojibake,即使发送到通常正确呈现汉字字符的地址也是如此。

我无法复制错误,但知道它已经发生,因为我的客户已经发送了回复电子邮件的屏幕截图。有没有其他人遇到过这个问题?我有点不知所措。我使用 Sendmail 软件发送电子邮件。

谢谢

0 投票
2 回答
3122 浏览

character-encoding - how to convert unicode text to utf8 text readable?

I got a serious problem regarding Unicode and utf8, I saved a paragraph of Arabic/Persian text file into notepad and saved it, now I saw my information like

my question is how to get back my data, it is important for me to get this data back, thanks in advance

0 投票
1 回答
270 浏览

webserver - 在网络服务器上设置 *.txt 文件的文件编码属性

gh-pages 正在 mobibaking 一个文本文件。. . 我们的 CI 构建服务器将一些构建工件复制到 gh-pages。

在本地,我可以看到文件编码是 UTF-8,如果我下载文件并打开它,它在文本编辑器中呈现得很好。

但是,在 Safari、Firefox 和 Chrome 中,特殊字符(勾号、复选标记等)正在被 mojibaked。如何指示使用正确的文件编码?

0 投票
1 回答
2224 浏览

excel - vba 代码中的希伯来语文本无法正确解码

我开发了一个工作簿,带有一些底层的 vba 代码。工作簿使用希伯来语,vba 代码也使用希伯来语,例如比较希伯来语中的字符串,或使用其希伯来语名称访问表格。我在 Excel 2010 中开发了此工作簿,并将其保存为 xlsm 文件(启用宏)。它在各种机器和 excel 版本上都运行良好,除了在安装了 excel 2007 的某台电脑上。问题似乎是我在 vba 代码中使用的希伯来语字符串没有正确解码,并且被视为乱码。工作簿本身中的希伯来语文本(即单元格或工作表名称)非常好,只有我在 VBA 代码本身中使用的文本似乎无法正确阅读。我想做的是在打开工作簿后自动正确设置编码/解码,

在阅读了更多herehere之后,我意识到当系统语言环境不是希伯来语时会发生这种情况。我可以只在 Excel 中使用 vba 代码动态设置它(即不在操作系统级别更改它),以便我编写的希伯来语文本可以工作吗?否则,我需要从 vba 代码中删除所有希伯来语文本。