问题标签 [mojibake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
5652 浏览

python - Python2.7 UnicodeEncodeError:“ascii”编解码器无法编码位置 0-11 中的字符:序数不在范围内(128)

我目前正在使用 python 2.7 并在一个中文网站上进行网页抓取。

如何将下面的unicode转换为字符串?

简单的 str() 函数不起作用并声明 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-11: ordinal not in range(128)

提前致谢,

0 投票
2 回答
2797 浏览

python - 如何在python中将url编码的字符串转换为正确的unicode字符串

我正在学习使用在 python 2.x 中运行的 scrapinghub.com 我已经编写了一个使用 Scrapy 的脚本,我已经抓取了一个如下所示的字符串:

这总是给我以下信息:

我总是收到垃圾文字(女) æ迪é ADIDAD ENERGY CLOUD W é氣網å¸

从 url 编码文本到 unicode 的转换代码如下所示

我尝试了很多不同的代码,例如

这要么给我错误,要么仍然是垃圾文本

不确定转换为 unicode 的正确方法是什么?

0 投票
1 回答
1038 浏览

python - Python - 将 unicode 和 hex 转换为 unicode

我有一个像这样的 unicode 字符串:

u'\xc3\xa3\xc6\u2019\xc2\xa9\xc3\xa3\xc6\u2019\xe2\u20ac\u201c\xc3\xa3\xc6\u2019\xc2\xa9\xc3\xa3\xe2\u20ac\u0161 \xc2\xa4\xc3\xa3\xc6\u2019\xe2\u20ac\u201c\xc3\xaf\xc2\xbc\xc2\x81\xc3\xa3\xe2\u20ac\u0161\xc2\xb9\xc3\xa3\xe2 \u20ac\u0161\xc2\xaf\xc3\xa3\xc6\u2019\xc2\xbc\xc3\xa3\xc6\u2019\xc2\xab\xc3\xa3\xe2\u20ac\u0161\xc2\xa2\xc3\xa3 \xe2\u20ac\u0161\xc2\xa4\xc3\xa3\xc6\u2019\xe2\u20ac\xb0\xc3\xa3\xc6\u2019\xc2\xab\xc3\xa3\xc6\u2019\xe2\u20ac\xa2 \xc3\xa3\xe2\u20ac\u0161\xc2\xa7\xc3\xa3\xe2\u20ac\u0161\xc2\xb9\xc3\xa3\xc6\u2019\xe2\u20ac\xa0\xc3\xa3\xe2\u20ac \u0161\xc2\xa3\xc3\xa3\xc6\u2019\xc2\x90\xc3\xa3\xc6\u2019\xc2\xab\xc3\xaf\xc2\xbc\xcb\u2020\xc3\xa3\xe2\u20ac \u0161\xc2\xb9\xc3\xa3\xe2\u20ac\u0161\xc2\xaf\xc3\xa3\xc6\u2019\xe2\u20ac\xa2\xc3\xa3\xe2\u20ac\u0161\xc2\xa7\xc3 \xa3\xe2\u20ac\u0161\xc2\xb9\xc3\xaf\xc2\xbc\xe2\u20ac\xb0'

如何从中获取正确的 unicode 字符串?我认为,实际的 unicode 值是ラブライブ!スクールアイドルフェスティバル(スクフェス)

0 投票
1 回答
2845 浏览

python - Python 请求奇怪的 URL %-编码

0 投票
1 回答
163 浏览

encoding - 如何使用 mojibake 并找出原始字符集是什么?

我有一些有效的 UTF-8 数据。然而,它的一部分,虽然仍然是有效的 UTF-8,但显然不是最初的 UTF-8。它们也不是 UTF-8 编码的 Latin-1。

我怎样才能弄清楚这些部分的原始字符集是什么,以便我可以恢复有用的信息?还是我应该简单地将它们视为已损坏而丢弃?

0 投票
1 回答
752 浏览

utf-8 - 修复从 UTF8 更改为 ASCII 的文件名

我最近下载了一组视频,文件名应该是日文字符。相反,曾经上传它们的人搞砸了格式。

我得到的不是假名、平假名和汉字;

002òÅü¢âyâbâeâBâôâO(âuâïâ}).mp4

我想知道是否有办法解决这个不要求再次上传的问题?

我尝试将名称放入文本文件中,然后对该文件进行十六进制编辑以更改其编码,但这不起作用。

0 投票
0 回答
74 浏览

c# - 邮件合并爱尔兰法达的

我有一个文本文件,用作邮件合并模板的数据源。爱尔兰法达字符(á、Á、ó、Ó、ú、Ú、í、Í、é、É)在输出文件中被转换为乱码。

我的代码如下:

我在 期间尝试了各种编码选项.OpenDataSource,但似乎都不起作用。我需要改变什么?

0 投票
1 回答
47 浏览

jsf - JSF 输入字段仅在部署后的第一次请求时显示 mojibake,然后它工作正常

我写了一个解析器,它可以将平假名文本解析为罗马字文本。然后我做了一个你可以在 Picture1 上看到的 facelet。如果我输入任何平假名文本并单击翻译按钮,它会在两个文本区域中显示垃圾文本。解析器库有单元测试,所有测试都通过。我还使用相同的库制作了一个小型 JavaFX GUI,并且该错误不存在。此错误仅在我部署它并在浏览器中运行后出现。我使用 JSF 2.2 和 Glassfish 4.1.0 作为容器。


图1: 图片1 当我在显示这个垃圾后重新输入相同的文本时,它运行良好。它在任何其他时间都可以正常工作。你可以在图片2上看到它。我输入了相同的文本,并且在最初的错误之后效果很好。


图2: 图片2


这是 index.xhtml 的代码:


这是托管 bean 的代码。HiraganaLettersNew 类是一个单例。


有人可以帮我吗?我是 facelets 和 JavaEE 的新手,我不知道为什么会发生这个错误。先感谢您!

0 投票
1 回答
1957 浏览

javascript - 日文字符在 Google Chrome 中显示为其他符号

我有一个非常简单的 JavaScript 应用程序,它必须呈现一些日文字符(特别是半角假名)。

这就是所有:ヲァィゥェォャュョッアイウエオカキクケコサシス セソタチ ユヨラリルレロワン </p>

但是,当它们呈现到屏幕上时,它们会显示为其他随机字符,如下所示。这是一个屏幕截图。

更奇怪的是,如果我将随机渲染的字符复制并粘贴到我的代码编辑器中,它就会变成日语!

我知道 Chrome 能够渲染日文字符,因为当我输入这个问题时,我现在可以看到它这样做了。所以,我完全不知道为什么会在我的程序中发生这种情况。

Firefox 似乎没有这个问题,但 Safari 有。

这是我的代码。我有一个字符串中的所有字符,我随机选择一个来显示(这是出于艺术目的)。

然后随机选择的字符显示在 li 标签内

这是我的应用程序形成的唯一 HTML 文件:

0 投票
0 回答
104 浏览

python - 识别未知文件编码并在其中读取 Python

我习惯于使用 SQL 处理顶级数据(我以前使用过一些 Fortran IV 和 COBOL),并且正在尝试用 Python 重新训练自己。我在读取我认为是 uuencoded 的文件时遇到问题。您能否证实这一点,或者建议它可能是什么,以及用 Python 阅读它的最佳方式是什么?这里是: