postgresql - 来自平面文件的 GPFdist 插入会在插入时引发错误“用于编码“UTF8”的字节序列无效：0x00”

Question

我在写入以从大型平面文件中提取数据的过程中遇到问题。我正在使用具有 UTF8 规范的 python 包装器预处理平面文件，如下所示： wrFile = io.open("outFile","w+",encoding='utf8')

我正在使用以下命令逐行读取源文件： lineACT = linecache.getline("inFile", i+j) lineNxt = linecache.getline("inFile", i+j+1)

此外，在预处理行之后，我正在编写文件，如下所示： wrFile.write(lineACT) 因此，遍历 infile 中的行数，我正在创建 outfile。

postgresql现在，可以使用以下查询将文件提取到外部表中。加载器应用程序已写入Java，所有配置都使用属性文件传递：

-- CREATE EXTERNAL TABLE FOR A SPECIFIC CLIENT
CREATE  EXTERNAL TABLE outTable (  col1 character(3), col2 
character(3),..... )
LOCATION ( '<LocationOf outFile>' )
FORMAT    'CUSTOM' (formatter=fixedwidth_in,col1='3',col2='3'......)
LOG ERRORS INTO errorTable SEGMENT REJECT LIMIT 2 ROWS;

-- INSERT INTO DELTA TABLE
INSERT  INTO deltaTable
SELECT  col1, col2,......
FROM    outTable
;

-- DROP EXTERNAL TABLE
DROP  EXTERNAL TABLE IF EXISTS outTable;

UNIX在盒子上运行它会给我一个例外：

Cause: org.postgresql.util.PSQLException: ERROR: Segment reject limit reached. Aborting operation. Last error was: Expected line size from the formatting string: 1655, but the actual size is: 455  (seg43 slice1 uxpbdpsdw06.dstcorp.net:1028 pid=335160)

注意： outFile 中的每一行是 1655 个字符。outTable和deltaTable的列结构也是1655。当我检查 errorTable 时，我在errmsg列中找到了这个：

invalid byte sequence for encoding "UTF8": 0x00

现在，我猜测数据库不接受文件中的null字符'0x00'，因为我检查的 db 的编码属性是'UTF8'

我尝试使用以下 bash 命令从文件中删除空字符：

sed 's/\x0/-9/g' outFile > outFile_

&

tr < outFile -d '\000' > outFile_

但到目前为止没有任何效果。有人可以就如何使这项工作提出一些建议吗？

--

提前致谢！

score 0 · Accepted Answer

大多数情况下，只要数据具有不可打印的字符，就会遇到此特定错误。我的建议是用空格替换不可打印的字符并执行查询

postgresql - 来自平面文件的 GPFdist 插入会在插入时引发错误“用于编码“UTF8”的字节序列无效：0x00”

1 回答 1

Related

Reference