
# -*- coding: utf-8 -*-

    import os
    import codecs

    dirpath = "C:\\Users\\user\\path\\to\\textfiles"
    filenames = os.listdir(dirpath)

    with codecs.open(r'C:\Users\user\path\to\output.txt', 'w', encoding='utf8') as outfile:
        for fname in filenames:
            currentfile = dirpath+"\\"+fname
            with codecs.open(currentfile, encoding='utf8') as infile:
        #print currentfile

                for line in infile:

                    line = line.replace(u"´ı", "i")
                    line = line.replace(u"ï¬", "fi")
                    line = line.replace(u"fl", "fl")
                    outfile.write (line)


import codecs

currentfile = 'textfile.txt'
with codecs.open('C:\\Users\\user\\path\\to\\output2.txt', 'w', encoding='utf-8') as outfile:
with open(currentfile) as infile:
for line in infile:
if "ï¬" not in line: print "not found!"

总是返回“未找到!” 证明这些字符没有被读取。

with codecs.open('C:\Users\user\path\to\output.txt', 'w', encoding='utf-8') as outfile:在第一个脚本中更改为时,我收到此错误:

Traceback (most recent call last):
File C:\\path\\to\\concat.py, line 30, in <module>
File C:\\Python27\\codecs.py, line 691, in write
return self.writer.write(data)
File C:\\Python27\\codecs.py, line 351, in write
data, consumed = self.encode(object, self.errors)
Unicode DecodeError: 'ascii' codec can't decode byte 0xe7 in position 0: ordinal
not in range (128)

由于我在 python 方面没有真正的经验,我无法通过已经可用的不同来源弄清楚:python 文档(1、2)和 StackOverflow的相关问题1、2



1 回答 1


codecs.open()如果您不使用编码,则使用毫无意义。要么使用codecs.open() 读写指定的编码,要么完全放弃它。没有编码,codecs.open()是 just 的别名open()

在这里,您确实想要指定您正在打开的文件的编解码器,以处理 Unicode 值。unicode当超出 ASCII 字符时,您还应该使用文字值;为您的数据指定源文件编码或使用 unicode 转义码:

# -*- coding: utf-8 -*- 
import os
import codecs

dirpath = u"C:\\Users\\user\\path\\to\\textfiles"
filenames = os.listdir(dirpath)

with codecs.open(r'C:\Users\user\path\to\output.txt', 'w', encoding='utf8') as outfile:
    for fname in filenames:
        currentfile = os.path.join(dirpath, fname)
        with codecs.open(currentfile, encoding='utf8') as infile:
            outfile.write(fname + '\n\n')
            for line in infile:
                line = line.replace(u"´ı", u"i")
                line = line.replace(u"ï¬", u"fi")
                line = line.replace(u"fl", u"fl")
                outfile.write (line)

这向解释器指定您使用 UTF-8 编解码器来保存源文件,确保u"´ı"代码点正确解码为 Unicode 值,并encoding在打开文件时使用codec.open()确保您读取的行被解码为 Unicode 值和确保您的 Unicode 值以 UTF-8 格式写入输出文件。

请注意,该dirpath值也是 Unicode。如果您使用 Unicode 路径,则os.listdir()返回 Unicode 文件名,如果这些文件名中包含任何非 ASCII 字符,这是必不可少的。

如果你不这样做,很可能你的源代码编码与你从文件中读取的数据不匹配,并且你试图用几个 ASCII 字符替换错误的编码字节集。

于 2013-06-11T11:13:41.243 回答