在直接从 HDFS(作为猪脚本输出的文件)以及位于本地硬盘上的原始数据将文件加载到大工作表时,我遇到了一些错误。我观察到,每当我加载文件并发出行数以查看是否所有数据都加载到 bigsheets 中时,我看到加载的行数较少。我检查了文件是否一致且正确的分隔符(/t 或逗号分隔的字段)。我的文件大小约为 2GB,我使用了 *.csv/ *.tsv 格式中的任何一种。
同样在某些情况下,当我厌倦了直接从 Windows os 加载文件时,文件有时会成功加载,行数与数据中的实际行数匹配,然后有时行数较少。
即使有时当第一次使用新文件时,它也会给出正确的结果,但如果我下次做同样的操作,一些行会丢失。
请分享您的经验,您的 bigsheets,解决未加载整个数据等任何此类问题的解决方案。提前致谢