我有如下示例数据:
id,log,code,sequence
100,sample <(>&<)> O sample ? PILE UP - 3 sample,20,7^M$
101,sample- 4/52$
sample$
CM,21,7^M$
102,sample AT 3PM,22,4^M$
在第二行 (id=101) 中,日志列有换行符,一行中有 3 行。我在 vim 编辑器中启用了 ":set list" 选项来显示换行符 ($) 和 endofline (^M) 字符。
在这里处理换行符AWS Suggested OpenCSVSerde。我尝试使用 OPENCSVSerde 序列化escapeChar=\\, quoteChar=\", seperatorChar=
,尽管如此,它将数据显示为 5 行,而我需要 3 行。当我在 Athena 中查询时,id=101 只显示第一行,而其余部分则缺失:
id,log,code,sequence
101,sample- 4/52
有关如何处理 csv 文件列中的多行字符的任何提示或示例?
我正在探索自定义分类器,但还没有运气。