2

我最终在我们的 mysql 列之一中遇到了混乱的字符编码。

通常我有

√© 代替 é
√∂ 代替 ö
√≠ 代替 í

等等...

相当肯定这里有人会知道发生了什么以及如何解决。

更新: 基于 bobince 的回答,因为我在文件中有这些数据,所以我做了以下

#!/user/bin/env python
import codecs
f = codecs.open('./file.csv', 'r', 'utf-8')
f2 = codecs.open('./file-fixed.csv', 'w', 'utf-8')
for line in f:
    f2.write(line.encode('macroman').decode('utf-8')),

之后

load data infile 'file-fixed.csv' 
into table list1 
fields terminated by ',' 
optionally enclosed by '"' 
ignore 1 lines;

正确导入数据。

UPDATE2: Hammerite,为了完整起见,这里是要求的详细信息......

mysql> SHOW VARIABLES LIKE 'character_set%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | latin1                     | 
| character_set_connection | latin1                     | 
| character_set_database   | latin1                     | 
| character_set_filesystem | binary                     | 
| character_set_results    | latin1                     | 
| character_set_server     | latin1                     | 
| character_set_system     | utf8                       | 
| character_sets_dir       | /usr/share/mysql/charsets/ | 
+--------------------------+----------------------------+

SHOW CREATE TABLE我要导入的表有DEFAULT CHARSET=utf8

编辑3:

实际上,使用上述设置load 并没有做正确的事情(我无法与现有的 utf8 字段进行比较,并且我加载的数据看起来好像加载正确;我假设是因为错误,但匹配客户端、连接和结果字符集),所以我将设置更新为:

+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | utf8                       | 
| character_set_connection | utf8                       | 
| character_set_database   | utf8                       | 
| character_set_filesystem | binary                     | 
| character_set_results    | utf8                       | 
| character_set_server     | utf8                       | 
| character_set_system     | utf8                       | 
| character_sets_dir       | /usr/share/mysql/charsets/ | 
+--------------------------+----------------------------+

再次上传数据,最后我正确加载了数据(与现有数据相当)。

4

1 回答 1

5

您的文本已被编码为 UTF-8,然后错误地重新解码为Mac Roman

您将无法在数据库中修复此问题,因为 MySQL 不知道 Mac Roman 编码。您可以编写一个脚本来遍历每个受影响表的每一行,并通过反转编码/解码周期来修复文本。Python 是一种可能性,它具有多种编码:

>>> print u'é'.encode('macroman').decode('utf-8')
é
>>> print u'ö'.encode('macroman').decode('utf-8')
ö
>>> print u'í'.encode('macroman').decode('utf-8')
í

或者,如果没有不受此问题影响的非 ASCII 内容,您可以尝试使用mysqladmin导出 SQL 转储,然后使用上述脚本一次全部转换,或者,如果您有文本编辑器(大概在 Mac 上)可以做到这一点,将脚本加载为 UTF-8,然后将其保存为 Mac Roman。最后使用mysql < dump.sql.

于 2010-09-29T17:10:04.547 回答