1

我有一个案例,我从第三方收到多个 CSV(很难让他们更改格式),这些 CSV 应该有相同的列,但有时缺少一个或多个列。如果我使用 CDAP 文件(读取为文本),然后使用牧马人来处理 CSV,牧马人使用以下指令:

parse-as-csv :body '\\t' true
cleanse-column-names 

它将假定读取的所有文件都具有相同的列格式,并且会弄乱列比第一个文件少或多的文件的数据。

到目前为止,我尝试使用 File 读取为 blob 并将输出作为字节使用配置了此指令的 Wrangler:

set-type :body string
parse-as-csv :body '\t' true
cleanse-column-names

但现在我什至没有任何输出(或错误),所以我不知道如何解析那些非统一文件。CDAP 能够处理这种情况吗?如果是,如何?

4

1 回答 1

1

您可以使用指令set-column将新列添加到没有所有需要的列的文件中。总的来说,我建议您查看所有指令文档以预处理您的文件。

我希望这会有所帮助。

于 2020-01-29T12:17:28.140 回答