我有一个案例,我从第三方收到多个 CSV(很难让他们更改格式),这些 CSV 应该有相同的列,但有时缺少一个或多个列。如果我使用 CDAP 文件(读取为文本),然后使用牧马人来处理 CSV,牧马人使用以下指令:
parse-as-csv :body '\\t' true
cleanse-column-names
它将假定读取的所有文件都具有相同的列格式,并且会弄乱列比第一个文件少或多的文件的数据。
到目前为止,我尝试使用 File 读取为 blob 并将输出作为字节使用配置了此指令的 Wrangler:
set-type :body string
parse-as-csv :body '\t' true
cleanse-column-names
但现在我什至没有任何输出(或错误),所以我不知道如何解析那些非统一文件。CDAP 能够处理这种情况吗?如果是,如何?