我最终在我们的 mysql 列之一中遇到了混乱的字符编码。
通常我有
√© 代替 é
√∂ 代替 ö
√≠ 代替 í
等等...
相当肯定这里有人会知道发生了什么以及如何解决。
更新: 基于 bobince 的回答,因为我在文件中有这些数据,所以我做了以下
#!/user/bin/env python
import codecs
f = codecs.open('./file.csv', 'r', 'utf-8')
f2 = codecs.open('./file-fixed.csv', 'w', 'utf-8')
for line in f:
f2.write(line.encode('macroman').decode('utf-8')),
之后
load data infile 'file-fixed.csv'
into table list1
fields terminated by ','
optionally enclosed by '"'
ignore 1 lines;
正确导入数据。
UPDATE2: Hammerite,为了完整起见,这里是要求的详细信息......
mysql> SHOW VARIABLES LIKE 'character_set%';
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | latin1 |
| character_set_filesystem | binary |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
SHOW CREATE TABLE
我要导入的表有DEFAULT CHARSET=utf8
编辑3:
实际上,使用上述设置load
并没有做正确的事情(我无法与现有的 utf8 字段进行比较,并且我加载的数据看起来好像加载正确;我假设是因为错误,但匹配客户端、连接和结果字符集),所以我将设置更新为:
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | utf8 |
| character_set_connection | utf8 |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | utf8 |
| character_set_server | utf8 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
再次上传数据,最后我正确加载了数据(与现有数据相当)。