问题标签 [cp1251]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
522 浏览

php - UTF-8 符号和 cp1251 站点

有一堆用 cp1251 字符集创建的旧网站。我被要求通过实现对用户输入的非 cp1251 符号的支持来增强其功能。将所有内容都转换为 utf-8 为时已晚,因为有很多旧的未记录的东西依赖于旧字符集,所以我想出了一个将所有“非标准”符号转换为 HTML 实体的想法。我为这个任务写了一门课。它将 UTF-8 转换为 cp1251 和 HTML 实体,反之亦然。你怎么看待这件事?将其应用于输入后可能会出现哪些问题?或者有没有更好的方法?

0 投票
1 回答
2992 浏览

python - PyCharm 调试器中的 UnicodeDecodeError

它是在使用 cyryllic 时对 UnicodeDecodeError的引用。我对 Python 3.3 和 Pycharm 2.7.2 有同样的问题尝试在代码中硬编码编码,在 Pycharm 选项中手动指定编码,但没有效果。它仍然尝试使用 cp1251 库打开 utf-8 文件。

在调试跟踪器http://youtrack.jetbrains.com/issue/PY-3669中,此问题标记为已解决,但仍存在。

有什么建议么 ?

0 投票
1 回答
792 浏览

python - 使用 BeautifulSoup 解析不同的 unicode 文件

我有这个具有编解码器的特定 HTML 页面

现在,当我尝试使用 BeautifulSoup 解析这个特定文件时,它总是返回 NULL 对象。我可以使用以下方法转换它:

现在它工作正常。但在我的收藏中,我的页面包含UTF-8windows-1251字符集类型。所以,我想知道确定特定 HTML 页面的字符集的过程是什么,如果它是 windows-1251 格式,并相应地转换它?

我找到了这个:

但为此,我需要将其加载到“汤”中。但只有它返回“无类型对象”。任何帮助将不胜感激。

我正在使用 Python 2.7

编辑:

这是我实际上想说的一个例子:

这是我的代码:

页面有

正确显示页面的标题。

现在如果一个页面有

那么输出是

AttributeError:“NoneType”对象没有属性“head”

现在我可以使用上面提到的编解码器库来解决这个问题。我试图找出的是如何确定编码以便能够应用它。

这些是试图抓取和收集某些信息的两个站点:

http://www.orderapx.com/http://www.prpoakland.com/

0 投票
1 回答
674 浏览

php - Iconv 字节长度

我正在使用 iconv 将字符串从 CP1251 转换为 UTF-8 问题是转换前的字符串长度是 4 个字节,之后是 8 个字节。

转换后,我将消息发送到 Apple 服务器,长度有限。

如何获得转换并保持相同的长度?

0 投票
1 回答
1338 浏览

python - 将文件从 cp1251 转换为 utf8

我看到了类似的问题,但对他们的回答没有帮助。这段代码:

返回错误“UnicodeDecodeError:'charmap'编解码器无法解码位置 1 的字节 0x98:字符映射到未定义”

这段代码:

产生相同的错误。麻烦的符号是西里尔字母“И”(据我所知,它由“0xc8”而不是“0x98”表示)。我在 Windows 上使用 python 2.7。

UPD:原来,原始文件编码可能不是 cp1251,这些错误可能是文本编辑器中的错误的结果。但是,我所有的文本编辑器都可以正确读取此文件。然后我正在寻找一些解决方法,因为没有这个特定字母的文件被正确转换。

0 投票
1 回答
4432 浏览

apache - 浏览器以 UTF-8 而非 windows-1251 显示页面

我有一个网站,它只包含 html,并且有很多西里尔符号。浏览器正在设置 UTF-8 编码,而不是应有的 windows-1251。所以,英文字母显示很好,但每个西里尔符号都像����

这是我的设置:
RHEL 6.3 (2.6.32-279.el6.x86_64)
Apache/2.2.15 (Unix)

这是我的.htaccess文件:

页面的第一行:

pastebin或phpfiddle上的示例页面,供那些无权访问 pastebin 的人使用

因此,charset 无处不在,如果我手动将浏览器中的编码更改为 windows-1251 - 它显示得很好,但自动检测设置了 utf-8,我不知道为什么。
如果有帮助 - 站点之前托管在 Sun OS 5.10 上。

谢谢你的帮助。

0 投票
1 回答
2652 浏览

java - 到 Windows1251 的 Base64 字符串(西里尔符号)

我在将电子邮件附件(带有拉丁和西里尔符号的 windows-1251 编码中的简单文本文件)转换为字符串时遇到了麻烦。即我在转换西里尔字母时遇到问题。我将附件文件作为 base64 编码的字符串,如下所示:

Base64Encoded 电子邮件附件

原始文件

所以当我尝试解码它时,我得到了“?” 而不是西里尔符号。

我怎样才能得到正确的西里尔文(俄语)符号而不是“?”

我已经用所有编码尝试过这段代码,但没有任何帮助来获得正确的俄罗斯符号。

事先谢谢你。

0 投票
0 回答
64 浏览

javascript - 在 JS 上计算非 UTF8 字符代码

有一个方法叫做 charCodeAt(position)。但根据其文档(和控制台),它将返回给定字符的 UTF8 代码。

但我想建立一个基于单字节编码的项目(在我的例子中是 Windows 1251 - 俄语)。

如何计算与 UTF8 不同的编码中的字符代码?

0 投票
1 回答
260 浏览

mysql - 使用 cp1251 编码的 VARCHAR 字段上区分大小写的 LIKE

我有一个带有 VARCHAR(250) cp1251_general_ci 字段的 InnoDB 表,名为comment.

我正在尝试在此字段上进行搜索,案例判断。

按预期工作,但不区分大小写。

我试着用BINARY喜欢

它返回一个空结果。

我试着用COLLATE喜欢

它返回错误

如何使搜索区分大小写?如果答案能得到我的查询为什么不起作用的描述的补充,我会很高兴。

0 投票
2 回答
1756 浏览

java - Java中XML编码的问题

我对 XML 编码有疑问。当我在 localhost 上使用 cp1251 编码创建 XML 时,一切都很酷
但是当我在服务器上部署我的模块时,xml 文件有不正确的符号,如“ФайлПФД

我该如何解决?