问题标签 [cp1251]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - UTF-8 符号和 cp1251 站点
有一堆用 cp1251 字符集创建的旧网站。我被要求通过实现对用户输入的非 cp1251 符号的支持来增强其功能。将所有内容都转换为 utf-8 为时已晚,因为有很多旧的未记录的东西依赖于旧字符集,所以我想出了一个将所有“非标准”符号转换为 HTML 实体的想法。我为这个任务写了一门课。它将 UTF-8 转换为 cp1251 和 HTML 实体,反之亦然。你怎么看待这件事?将其应用于输入后可能会出现哪些问题?或者有没有更好的方法?
python - PyCharm 调试器中的 UnicodeDecodeError
它是在使用 cyryllic 时对 UnicodeDecodeError的引用。我对 Python 3.3 和 Pycharm 2.7.2 有同样的问题尝试在代码中硬编码编码,在 Pycharm 选项中手动指定编码,但没有效果。它仍然尝试使用 cp1251 库打开 utf-8 文件。
在调试跟踪器http://youtrack.jetbrains.com/issue/PY-3669中,此问题标记为已解决,但仍存在。
有什么建议么 ?
python - 使用 BeautifulSoup 解析不同的 unicode 文件
我有这个具有编解码器的特定 HTML 页面
现在,当我尝试使用 BeautifulSoup 解析这个特定文件时,它总是返回 NULL 对象。我可以使用以下方法转换它:
现在它工作正常。但在我的收藏中,我的页面包含UTF-8和windows-1251字符集类型。所以,我想知道确定特定 HTML 页面的字符集的过程是什么,如果它是 windows-1251 格式,并相应地转换它?
我找到了这个:
但为此,我需要将其加载到“汤”中。但只有它返回“无类型对象”。任何帮助将不胜感激。
我正在使用 Python 2.7
编辑:
这是我实际上想说的一个例子:
这是我的代码:
页面有
正确显示页面的标题。
现在如果一个页面有
那么输出是
AttributeError:“NoneType”对象没有属性“head”
现在我可以使用上面提到的编解码器库来解决这个问题。我试图找出的是如何确定编码以便能够应用它。
这些是试图抓取和收集某些信息的两个站点:
php - Iconv 字节长度
我正在使用 iconv 将字符串从 CP1251 转换为 UTF-8 问题是转换前的字符串长度是 4 个字节,之后是 8 个字节。
转换后,我将消息发送到 Apple 服务器,长度有限。
如何获得转换并保持相同的长度?
python - 将文件从 cp1251 转换为 utf8
我看到了类似的问题,但对他们的回答没有帮助。这段代码:
返回错误“UnicodeDecodeError:'charmap'编解码器无法解码位置 1 的字节 0x98:字符映射到未定义”
这段代码:
产生相同的错误。麻烦的符号是西里尔字母“И”(据我所知,它由“0xc8”而不是“0x98”表示)。我在 Windows 上使用 python 2.7。
UPD:原来,原始文件编码可能不是 cp1251,这些错误可能是文本编辑器中的错误的结果。但是,我所有的文本编辑器都可以正确读取此文件。然后我正在寻找一些解决方法,因为没有这个特定字母的文件被正确转换。
apache - 浏览器以 UTF-8 而非 windows-1251 显示页面
我有一个网站,它只包含 html,并且有很多西里尔符号。浏览器正在设置 UTF-8 编码,而不是应有的 windows-1251。所以,英文字母显示很好,但每个西里尔符号都像����
这是我的设置:
RHEL 6.3 (2.6.32-279.el6.x86_64)
Apache/2.2.15 (Unix)
这是我的.htaccess文件:
页面的第一行:
pastebin或phpfiddle上的示例页面,供那些无权访问 pastebin 的人使用
因此,charset 无处不在,如果我手动将浏览器中的编码更改为 windows-1251 - 它显示得很好,但自动检测设置了 utf-8,我不知道为什么。
如果有帮助 - 站点之前托管在 Sun OS 5.10 上。
谢谢你的帮助。
java - 到 Windows1251 的 Base64 字符串(西里尔符号)
我在将电子邮件附件(带有拉丁和西里尔符号的 windows-1251 编码中的简单文本文件)转换为字符串时遇到了麻烦。即我在转换西里尔字母时遇到问题。我将附件文件作为 base64 编码的字符串,如下所示:
所以当我尝试解码它时,我得到了“?” 而不是西里尔符号。
我怎样才能得到正确的西里尔文(俄语)符号而不是“?”
我已经用所有编码尝试过这段代码,但没有任何帮助来获得正确的俄罗斯符号。
事先谢谢你。
javascript - 在 JS 上计算非 UTF8 字符代码
有一个方法叫做 charCodeAt(position)。但根据其文档(和控制台),它将返回给定字符的 UTF8 代码。
但我想建立一个基于单字节编码的项目(在我的例子中是 Windows 1251 - 俄语)。
如何计算与 UTF8 不同的编码中的字符代码?
mysql - 使用 cp1251 编码的 VARCHAR 字段上区分大小写的 LIKE
我有一个带有 VARCHAR(250) cp1251_general_ci 字段的 InnoDB 表,名为comment
.
我正在尝试在此字段上进行搜索,案例判断。
按预期工作,但不区分大小写。
我试着用BINARY
喜欢
它返回一个空结果。
我试着用COLLATE
喜欢
它返回错误
如何使搜索区分大小写?如果答案能得到我的查询为什么不起作用的描述的补充,我会很高兴。
java - Java中XML编码的问题
我对 XML 编码有疑问。当我在 localhost 上使用 cp1251 编码创建 XML 时,一切都很酷
但是当我在服务器上部署我的模块时,xml 文件有不正确的符号,如“ФайлПФД
我该如何解决?