0

我有一个数据集,当用作构建另一个数据集的输入时会导致“格式错误的记录”错误,表明原始数据文件有问题(一些格式错误的值)。因此,我希望不能在 Contour 中使用该数据集。那么,为什么有时我会在 Contour 中的某些板上出现格式错误的记录错误,而在其他板上却没有?

4

1 回答 1

0

所以这里的答案是您将能够在 Contour 中执行某些操作,而其他操作则不能。这取决于在 Contour 中执行的 spark 作业是否真的遇到了格式错误的记录。基本上 spark 是惰性的,因此实际上不会对所有数据执行所有操作 - 只有它需要向您显示结果。因此,如果在 Contour 中执行的功能不包括存在格式错误记录的特定列/行,您将能够利用数据集。

于 2020-09-23T04:48:45.140 回答