我有一个 30 GB 的文本文件。该文件的编码是 UTF8,但它也包含一些 Windows-1252 字符。因此,当我尝试导入时,会出现以下错误:
ERROR: invalid byte sequence for encoding "UTF8": 0x9b
我怎样才能解决这个问题?
该文件已经具有 UTF8 格式,当我为此文件运行“文件”命令时,它说编码是 UTF8。但它也包含一些非 UTF8 字节序列。例如,当我在一段时间后运行 \copy 命令时,它会为该行提供上述错误:
0B012234 Basic study of <img src="/fulltext-image.asp?format=htmlnonpaginated&src=323K744431152658_html\233_2 basic study of img src fulltext image asp format htmlnonpaginated src 323k744431152658_html 233_2 1975 Semigroup Forum semigroup forum 04861B53 19555