0

我正在尝试过滤一个非常大的 xdf 文件(位于 cloudera 上),in以将其与另一个 xdf 文件(位于 cloudera 上)进行比较。

如果我尝试:

rxDataStep(inData = largeXdf,
       outFile = largeXdf,
       overwrite = TRUE,
       transformObjects = 
         list(param1 = parameter),
       rowSelection = (columnNameFromLargeXdf %in% param1$1),
       numRows = -1))

我收到一个错误,param$1说不能对 s4 类的对象进行子集化。如 xdf 数据对象不能被子集化。有没有办法解决?我宁愿不将 xdf 转换为本地 csv 文件,因为它非常大。

4

1 回答 1

1

XDFs当然可以子集,但你不能覆盖XDFon hdfs。您将需要写入不同的文件。此外,如果您说这parameter也是一个,XDF那么您在其中使用它的方式rowSelection是不正确的。

于 2015-05-12T14:28:37.257 回答