sql - 如何从混合编码文件导入 PostgreSQL 表

Question

我有一个 30 GB 的文本文件。该文件的编码是 UTF8，但它也包含一些 Windows-1252 字符。因此，当我尝试导入时，会出现以下错误：

ERROR:  invalid byte sequence for encoding "UTF8": 0x9b

我怎样才能解决这个问题？

该文件已经具有 UTF8 格式，当我为此文件运行“文件”命令时，它说编码是 UTF8。但它也包含一些非 UTF8 字节序列。例如，当我在一段时间后运行 \copy 命令时，它会为该行提供上述错误：

0B012234    Basic study of <img src="/fulltext-image.asp?format=htmlnonpaginated&src=323K744431152658_html\233_2    basic study of img src fulltext image asp format htmlnonpaginated src 323k744431152658_html 233_2   1975        Semigroup Forum semigroup forum 04861B53        19555

score 1 · Accepted Answer

该问题是由反斜杠 ( \) 引起的。
使用不将反斜杠视为特殊字符的 CSV 格式，例如 -

\copy t from myfile.txt with csv quote E'\x1' delimiter E'\x2'

sql - 如何从混合编码文件导入 PostgreSQL 表

1 回答 1

Related

Reference