问题标签 [cp1252]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4319 浏览

python - 使用python导出csv文件时如何将cp1252转换为UTF-8

当我尝试导出 CSV 文件时出现 Unicode 错误(网络抓取,我使用的是 Beautifulsoup 并同时导入了 CSV 和 Beautifulsoup)。该代码由完全支持 UTF-8 的 Mac Linux 使用,但我使用的是 Windows。错误显示为

适用于 Mac 的原始代码是:

我尝试在工作表的开头解码 cp1252 并编码 UTF-8:

但它不起作用。请帮助。

0 投票
0 回答
41 浏览

mysql - Migrating a PostgreSQL database to a MySQL database

I realize that this looks like a duplicate at first glance, but hear me out -

I'm trying to use MySQL Workbench to copy data from a remote PostgreSQL server to my MySQL server. I'm having problems with the character set for some reason. The schema in my PostgreSQL instance is using the default character set (cp1252 aka English_UnitedStates.1252). When I try migrating that database to my MySQL server using the character set latin1 (which is apparently the same as cp1252), I get all kinds of data errors, such as this one

What am I doing wrong here?

0 投票
0 回答
173 浏览

python - 为什么我解码的 Windows-1252 字符串在字典中显示为 unicode 值而不是该值,尽管我尝试将其解码为 UTF-8?

在我的应用程序中 - 按照 Ned Batchelder 制作unicode 三明治的建议- 我首先尝试从 Windows-1252 解码为 UTF-8:

稍后,当我想将数据发送到端点时,我解码 UTF-8:

当我只打印包含有问题的 Windows-1252 字符的字段时,它会将它们解释为:

但是当我尝试打印整个字典时,我得到了 unicode 值:

我想要 wp-1252 字符本身或等价物,例如直引号而不是左引号或右引号。

0 投票
1 回答
1055 浏览

python-2.7 - 如何使用 MySQLdb 插入 cp1252 字符?

当我尝试使用 python MySQLdb 插入右双引号 (”) 时,它会生成UnicodeEncodeError: 'latin-1' codec can't encode character u'\u201d' in position 0: ordinal not in range(256). python MySQLdb 默认使用 latin-1 编解码器,从 中的 index.xml 文件中/usr/share/mysql/charsets/,它被描述为 cp1252 West European。因此,我认为 latin1 也将涵盖 cp1252 字符。但是 latin1 不会覆盖 cp1252 字符,如果它们覆盖,我将不会收到错误。

右双引号位于 cp1252 字符集中,但不在 ISO 8859-1(或 latin1)字符集中。

中没有cp1252.xml文件/usr/share/mysql/charsets/。为什么 python MySQLdb 缺少 cp1252 字符集?

或者是否与他们在中描述的latin1相同。cp1252index.xml

0 投票
1 回答
86 浏览

pdf - pdf差异数组中的不熟悉格式

我正在尝试解码 pdf 以从中获取文本,但我在使用差异数组时遇到了问题。我从正在使用的文档中提取的差异数组采用以下格式:

'BaseEncoding': 'WinAnsiEncoding', 'Differences': [1, 'g39', 'g38', 'g51', ';#23#23#23', ';#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23', 'g40', 'g79', 'g72', 'g70', 'g87', 'g85', 'g82', 'g81', 'g76', 'g54'...]

我找到了有关如何使用其他格式的差异表的解释,例如:

/Differences [ 24 /breve/caron/circumflex/dotaccent/hungarumlaut/ogonek/ring/tilde 39 /quotesingle 96 /grave 128 /bullet/dagger/daggerdbl/ellipsis... ]

数字代码告诉您要使用什么字符,但我似乎找不到如何使用第一种差异表的解释。

编辑:这是文件

0 投票
1 回答
407 浏览

python - Python从文件编码问题中读取

当我这样读时,一些文件

错误:

UnicodeDecodeError:“charmap”编解码器无法解码位置 1260 中的字节 0x9d:字符映射到

当我切换到这个

错误:

UnicodeDecodeError:“utf-8”编解码器无法解码位置 1459 中的字节 0x92:无效的起始字节

我已经读过我应该将它作为二进制文件打开。但我不知道该怎么做。这是我的功能:

只是我的功能的开始很重要,因为我在阅读部分得到了错误

0 投票
1 回答
127 浏览

groovy - 将“ANSI”编码文件写入磁盘

我应该使用 groovy 以 ANSI 格式创建一个导出文件。当我将文件写入磁盘并在“Notepad++”或 nano 中打开时,“äüö”等特殊字符无法正确显示。Notepad++ 将“Windows-1255”显示为编码。

我已经尝试更改编码并另外转换字符串

在记事本++中,文件看起来像这样 https://pasteboard.co/Inj3SL2.png 第二行中的字符应该是:äüöß

0 投票
1 回答
161 浏览

python - 带有 cp1252 编码字符串的 python3 C 扩展模块

我正在为现有的 C++ 库编写 Python3 扩展模块,它返回一个似乎采用 cp1252 编码的字符串。C++ 函数签名是

其中name是包含 c_str() 内容的输出变量,例如 0xb04600,它是 cp1252 代码页中的 DegreeSymbol,后跟大写字母F,由 NULL 字符完成。

在我的 python 扩展 C++ 代码中,我写了

但是,这会导致以下运行时异常

我将 cp2152 编码的字符串返回到 python 的正确方法是什么?

更新 我发现如果我使用y#而不是s#从扩展中返回一个 Python 字节对象,那么我可以将该字节对象转换回我的 python 代码中的字符串.decode('cp1252')。但是,这是 Python 中的一个额外步骤,应该在扩展模块中自动执行。不幸的是,我无法弄清楚如何

0 投票
0 回答
256 浏览

python - 解码未映射字符时,Python3 latin-1 和 cp1252 之间的不同行为

我正在尝试在 Python3 中读取指定编码 cp1252 的文本文件该编码具有未映射的字符(例如字节0x8d)。

我显然得到以下异常:

我想了解为什么在使用编码latin-1读取同一文件时,我没有得到相同的异常,并且字节0x8d表示为十六进制字符串:

据我所知,字节0x8d在两种编码( latin-1cp1252)上都不匹配。我错过了什么?为什么 Python3 的行为不同?

0 投票
1 回答
301 浏览

swift - 如何解码 windowsCP1252 编码的字符串 Swift