python - 如何在python中读取带有特殊字符的文件

Question

我已经使用 Apache Tika 抓取了 pdf、html、doc 文件并将结构化文本存储到文本文件中。这些文本文件包含一些不寻常的特殊字符，因为这些特殊字符我无法读取这些文本文件。我有以下代码片段可供阅读文件

fo = codecs.open('/var/www/testfiles/sample.txt','r','utf-8').read()

但是，我收到以下错误

UnicodeDecodeError: 'utf8' codec can't decode byte 0xb7 in position 1291: invalid start byte

请建议我如何阅读我的文本文件。谢谢

score 0 · Accepted Answer

您需要将 'errors' 关键字参数设置为默认严格以外的其他值。您可以在此处找到可能性列表（适用于 Python 3.3）。该列表在“codecs.register()”文档中列举。

我将从“替换”选项开始，这样您就可以看到您正在处理的内容。

1 回答 1