问题标签 [cp1251]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
64 浏览

perl - 模式代码来猜测 perl 中的文本文件代码页?

很抱歉我的菜鸟的问题,但我不能让下一个脚本工作。这是一种有用的代码和平,但我没有在网络中找到类似的工作。

控制台输出如下:

我做错了什么?先感谢您。

0 投票
4 回答
1546 浏览

python - 恢复编码错误的文件名

我已经为这个问题苦苦挣扎了一段时间,但是使用编码非常痛苦,我不得不求助于你更聪明的头脑来寻求帮助。

在我去乌克兰的一次旅行中,一位朋友将一些乌克兰语命名的文件复制到我的笔式驱动器中。但是,正如您所料,在复制到我的计算机的过程中,文件名变得无法读取垃圾,例如:

好吧,我有充分的理由相信原始文件名是使用 CP1251 编码的(我知道这一点是因为我手动检查了编码表并设法正确翻译了乐队的名称)。显然发生的事情是,在复制过程中,维护的 CP1251 代码和操作系统现在只是将它们解释为 Unicode 代码。

我尝试使用以下脚本“解释”Python 中的代码:

不过感觉不太对。结果也完全是垃圾:

如果我做:

我得到:

我发现如果我能获得 Unicode 中的所有代码点并将它们偏移 0x350,我会将它们放置在乌克兰西里尔字母的正确位置。但我不知道该怎么做,可能有一个在概念上比这更正确的答案。

任何帮助将不胜感激!

编辑:这是正确翻译的示例

Ôàíòîì 应该翻译成Фантом。

正如我之前所说,正确和错误的代码点之间存在 0x0350 偏移。

(好吧,这些文件是音乐文件......我猜你怀疑......)

其他一些测试字符串(我不知道其翻译):Áåç êîíò›îëf Äâîº Êàï_òîøêà Ïîäèâèñü

0 投票
1 回答
961 浏览

python - 将cp1251 pdf解析为python中的文本

有没有办法从带有俄语文本(cp1251)的pdf文件中提取文本?

为了解析 pdf 文件,我使用 pdfminer 包。我试图在 pdfminer.converter.TextConverter 类的参数中指定编码,但它没有帮助。

0 投票
2 回答
1624 浏览

python - Decoding Cyrillic in Python - character maps to

I receive a server response, bytes:

\xd0\xa0\xd1\x83\xd0\xb1\xd0\xbb\xd0\xb8 \xd0\xa0\xd0\xa4 \xd0\x9a\xd0\xa6\xd0\x91

This is for sure Cyrillic, but I'm not sure which encoding. Every attempt to decode it in Python fails:

Both results somewhat resemble Unicode-escape, but this does not work either:

There's a web service for recovering Cyrillic texts, it is able to decode my bytes using Windows-1251:

Output (source encoding : WINDOWS-1251)

Рубли РФ КЦБ

But I don't have any more ideas as for how to approach it.

I think I'm missing something about how encoding works, so if the problem seems trivial to you, I would greatly appreciate a bit of explanation/a link to a tutorial/ some keywords for further googling.

Solution:

Windows PowerShell uses Windows-850 codepage by default, which is incapable of handling some Cyrillic characters. One fix is to change the codepage to Unicode every time starting the shell:

Here is explained how to make it the new default

0 投票
3 回答
4279 浏览

perl - Perl:从 cp1251 转换为 utf8

我尝试将字符串转换为 utf8。

在这种情况下,我得到了我需要的东西:

但是如果我使用外部变量:

什么都没发生。

这是第一个示例的转储:

第二个:

我试过这个方法:

但这又不是我需要的。你能帮我得到第一个脚本中的结果吗?


使用这个之后

正如鲍罗丁建议的那样,我明白了

0 投票
1 回答
1707 浏览

python - 更改编码 python 3

有一个默认编码 -如何在 Python3 中默认'cp1251'更改为?UTF-8因为函数 sys.setdefaultencoding() 不起作用

0 投票
1 回答
965 浏览

python - 如何修复 UnicodeDecodeError: 'utf8' decode byte 0xc0 read in sql file

这是 tx.sql

这是python脚本

问题线:script = f.read().decode('utf8')

UnicodeDecodeError:“utf8”编解码器无法解码位置 134 中的字节 0xc0:无效的起始字节

我试过了

但线

如何做出正确的线条?

WHERE surname='РџСѓРїРєРёРЅ'

必须有一个字符串

WHERE surname='Пупкин'

0 投票
1 回答
99 浏览

mysql - MySQL:在同一列中混合编码

我使用 OCS Inventory 来清点我们的 PC。它几乎可以正常工作,但是……但是这些 PC 中有 99% 可以在 Windows(R):XP 和 7 下工作。WMI 信息没有任何标准。

例如,OCS Agent(目标 PC 上的常驻程序,它收集数据并将其发送到 OCS Server)可能会得到响应为“ Realtek PCIe GBE Family Controller (1 Gb/s) ”(纯英文,编码不是问题),或“ ¨£¡¨â®¥ á¥â¥¢®¥ ¯®¤ª«î票¥ Intel(R) 82566DM-2 (100 Mb/s) ”(不正确,俄语,CP1251),或“ Realtek RTL8169/8110 系列千兆以太网 NIC - Ìèíèïîðò ïëàíèðîâùèêà ïàêåòîâ (100 Mb/s) ”(不正确,俄语,CP866)。或“ VIA Rhine III 快速以太网适配器 - Минипорт планировщика пакетов (100 Mb/s) ”(正确,俄语,UTF8 或其他 Unicode)

我无法让 Windows 仅以一种编码返回这些结果:这似乎取决于驱动程序制造商的想法:驱动程序的 .INF 文件中使用了哪种编码,WMI 将返回该编码。

大多数情况下这不是问题,但我的老板非常不喜欢在关于我们 IT 基础设施状态的季度报告中看到“象形文字”。他们似乎是对的。

有什么方法可以即时将单个字段从一种编码重新编码为另一种?由于内容混合,我不会重新编码整个列。我可以大致确定使用了哪种编码,但我不知道如何仅使用 MySQL 的 SQL 语言重新编码以生成正确的报告。

请问有什么工作建议吗?

0 投票
1 回答
152 浏览

browser - 为什么 CP-1252 省略号在某些浏览器上显示为 u,上面有环 (ů)

出于某种原因,在某些浏览器上,CP-1252 省略号 (0x85) 显示为 ů。我相信服务器声称该页面将采用 UTF-8(不要问我为什么 UTF-8 服务器服务于 CP-1252,这超出了范围)。我会理解抛出警告,因为它不是有效的 UTF-8。我会理解它显示为 Latin1 字符U+0085 NEXT LINE (NEL)。但我终其一生都无法弄清楚为什么它显示为U+016F LATIN SMALL LETTER U WITH ABOVE ABOVE

这就是我所看到的:

在此处输入图像描述

这是一个hexdump -C文件

0 投票
0 回答
75 浏览

java - Java Swing 应用程序在 cp1252 中显示字符

我正在尝试运行一些摇摆应用程序。语言常量在 windows-1251 编码的 *.properties 文件中捆绑在一起。但是当我运行该应用程序时,它会在 CP1252 的标签中显示文本。我尝试使用 -encoding 选项编译应用程序,并使用 -Dencoding=Cp1251 运行它,但没有成功。我还应该做什么?如何让它正确显示标签?