0

在直接从 HDFS(作为猪脚本输出的文件)以及位于本地硬盘上的原始数据将文件加载到大工作表时,我遇到了一些错误。我观察到,每当我加载文件并发出行数以查看是否所有数据都加载到 bigsheets 中时,我看到加载的行数较少。我检查了文件是否一致且正确的分隔符(/t 或逗号分隔的字段)。我的文件大小约为 2GB,我使用了 *.csv/ *.tsv 格式中的任何一种。

同样在某些情况下,当我厌倦了直接从 Windows os 加载文件时,文件有时会成功加载,行数与数据中的实际行数匹配,然后有时行数较少。

即使有时当第一次使用新文件时,它也会给出正确的结果,但如果我下次做同样的操作,一些行会丢失。

请分享您的经验,您的 bigsheets,解决未加载整个数据等任何此类问题的解决方案。提前致谢

4

1 回答 1

0

您最初加载到 BigSheets 中的数据只是一个子集。您必须运行工作表才能将其放在完整的数据集上。

http://www-01.ibm.com/support/knowledgecenter/SSPT3X_3.0.0/com.ibm.swg.im.infosphere.biginsights.analyze.doc/doc/t0057547.html?lang=en

于 2015-01-22T22:30:42.760 回答