“cp1251”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

522 浏览

php - UTF-8 符号和 cp1251 站点

有一堆用 cp1251 字符集创建的旧网站。我被要求通过实现对用户输入的非 cp1251 符号的支持来增强其功能。将所有内容都转换为 utf-8 为时已晚，因为有很多旧的未记录的东西依赖于旧字符集，所以我想出了一个将所有“非标准”符号转换为 HTML 实体的想法。我为这个任务写了一门课。它将 UTF-8 转换为 cp1251 和 HTML 实体，反之亦然。你怎么看待这件事？将其应用于输入后可能会出现哪些问题？或者有没有更好的方法？

2013-07-26T05:42:35.650

0 投票

1 回答

2992 浏览

python - PyCharm 调试器中的 UnicodeDecodeError

它是在使用 cyryllic 时对 UnicodeDecodeError的引用。我对 Python 3.3 和 Pycharm 2.7.2 有同样的问题尝试在代码中硬编码编码，在 Pycharm 选项中手动指定编码，但没有效果。它仍然尝试使用 cp1251 库打开 utf-8 文件。

在调试跟踪器http://youtrack.jetbrains.com/issue/PY-3669中，此问题标记为已解决，但仍存在。

有什么建议么？

python encoding utf-8 pycharm cp1251

2013-09-16T12:36:50.990

0 投票

1 回答

792 浏览

python - 使用 BeautifulSoup 解析不同的 unicode 文件

我有这个具有编解码器的特定 HTML 页面

现在，当我尝试使用 BeautifulSoup 解析这个特定文件时，它总是返回 NULL 对象。我可以使用以下方法转换它：

现在它工作正常。但在我的收藏中，我的页面包含UTF-8和windows-1251字符集类型。所以，我想知道确定特定 HTML 页面的字符集的过程是什么，如果它是 windows-1251 格式，并相应地转换它？

我找到了这个：

但为此，我需要将其加载到“汤”中。但只有它返回“无类型对象”。任何帮助将不胜感激。

我正在使用 Python 2.7

编辑：

这是我实际上想说的一个例子：

这是我的代码：

页面有

正确显示页面的标题。

现在如果一个页面有

那么输出是

AttributeError：“NoneType”对象没有属性“head”

现在我可以使用上面提到的编解码器库来解决这个问题。我试图找出的是如何确定编码以便能够应用它。

这些是试图抓取和收集某些信息的两个站点：

http://www.orderapx.com/和http://www.prpoakland.com/

python python-2.7 html-parsing beautifulsoup cp1251

2013-09-30T07:04:56.917

0 投票

1 回答

674 浏览

php - Iconv 字节长度

我正在使用 iconv 将字符串从 CP1251 转换为 UTF-8 问题是转换前的字符串长度是 4 个字节，之后是 8 个字节。

转换后，我将消息发送到 Apple 服务器，长度有限。

如何获得转换并保持相同的长度？

php utf-8 iconv cp1251

2013-10-16T09:46:52.723

0 投票

1 回答

1338 浏览

python - 将文件从 cp1251 转换为 utf8

我看到了类似的问题，但对他们的回答没有帮助。这段代码：

返回错误“UnicodeDecodeError：'charmap'编解码器无法解码位置 1 的字节 0x98：字符映射到未定义”

这段代码：

产生相同的错误。麻烦的符号是西里尔字母“И”（据我所知，它由“0xc8”而不是“0x98”表示）。我在 Windows 上使用 python 2.7。

UPD：原来，原始文件编码可能不是 cp1251，这些错误可能是文本编辑器中的错误的结果。但是，我所有的文本编辑器都可以正确读取此文件。然后我正在寻找一些解决方法，因为没有这个特定字母的文件被正确转换。

python encoding cp1251

2013-11-12T14:40:17.950

0 投票

1 回答

4432 浏览

apache - 浏览器以 UTF-8 而非 windows-1251 显示页面

我有一个网站，它只包含 html，并且有很多西里尔符号。浏览器正在设置 UTF-8 编码，而不是应有的 windows-1251。所以，英文字母显示很好，但每个西里尔符号都像��

这是我的设置：
RHEL 6.3 (2.6.32-279.el6.x86_64)
Apache/2.2.15 (Unix)

这是我的.htaccess文件：

页面的第一行：

pastebin或phpfiddle上的示例页面，供那些无权访问 pastebin 的人使用

因此，charset 无处不在，如果我手动将浏览器中的编码更改为 windows-1251 - 它显示得很好，但自动检测设置了 utf-8，我不知道为什么。
如果有帮助 - 站点之前托管在 Sun OS 5.10 上。

谢谢你的帮助。

apache encoding character-encoding cp1251

2014-01-28T13:45:12.753

0 投票

1 回答

2652 浏览

java - 到 Windows1251 的 Base64 字符串（西里尔符号）

我在将电子邮件附件（带有拉丁和西里尔符号的 windows-1251 编码中的简单文本文件）转换为字符串时遇到了麻烦。即我在转换西里尔字母时遇到问题。我将附件文件作为 base64 编码的字符串，如下所示：

Base64Encoded 电子邮件附件

原始文件

所以当我尝试解码它时，我得到了“？” 而不是西里尔符号。

我怎样才能得到正确的西里尔文（俄语）符号而不是“？”

我已经用所有编码尝试过这段代码，但没有任何帮助来获得正确的俄罗斯符号。

事先谢谢你。

java windows base64 decoding cp1251

2014-02-07T09:35:55.373

0 投票

0 回答

64 浏览

javascript - 在 JS 上计算非 UTF8 字符代码

有一个方法叫做 charCodeAt(position)。但根据其文档（和控制台），它将返回给定字符的 UTF8 代码。

但我想建立一个基于单字节编码的项目（在我的例子中是 Windows 1251 - 俄语）。

如何计算与 UTF8 不同的编码中的字符代码？

javascript utf-8 character-encoding cp1251

2014-03-27T11:28:38.880

0 投票

1 回答

260 浏览

mysql - 使用 cp1251 编码的 VARCHAR 字段上区分大小写的 LIKE

我有一个带有 VARCHAR(250) cp1251_general_ci 字段的 InnoDB 表，名为comment.

我正在尝试在此字段上进行搜索，案例判断。

按预期工作，但不区分大小写。

我试着用BINARY喜欢

它返回一个空结果。

我试着用COLLATE喜欢

它返回错误

如何使搜索区分大小写？如果答案能得到我的查询为什么不起作用的描述的补充，我会很高兴。

mysql sql case-sensitive cp1251

2014-09-12T11:31:20.403

0 投票

2 回答

1756 浏览

java - Java中XML编码的问题

我对 XML 编码有疑问。当我在 localhost 上使用 cp1251 编码创建 XML 时，一切都很酷
但是当我在服务器上部署我的模块时，xml 文件有不正确的符号，如“Р¤Р°Р№Р»РџР¤Р”

我该如何解决？

java xml encoding cp1251

2015-04-07T06:51:11.913

问题标签 [cp1251]

Reference