1

我在 Azure 中构建了一个 ML 模型,并且我的大部分数据转换/特征生成步骤都是在 R 中执行的。首先,我在 R 本身中转换了数据(工作速度更快)并将创建的 csv 上传到 ML studio。

现在我的模型已经完成,我尝试在 ML Studio 本身中运行 R 代码,而不是手动上传转换后的数据集。它运行完美。但是,当我比较生成的数据集(上传的数据集和创建的数据集)时,它们会有所不同。这些列具有不同的方法、格式和模型执行较少。实际的数据条目/单元格看起来不错。

我觉得这与列的格式有关,所以我尝试了将列转换为字符类型,或者将结果数据集转换为 csv(在 ML Studio 中)并让 ML Studio 弄清楚如何格式化它们。

到目前为止,还没有结果。

有没有人已经面临这个问题?解决办法是什么?

4

1 回答 1

2

设法解决它:

  • 手动上传的数据集在 Azure 中仅使用“字符串功能”进行格式化。(因为有些 NA 的工作室 ML 会以这种方式对其进行格式化)。
  • 然而,R 脚本以不同的方式格式化 NA,因此也以不同的方式格式化列。

我不完全确定是什么导致了不同的结果,因为数据在字符方面是相同的。只有 NA 的格式与列的位置不同。

以下解决了我的问题(在工作室 ML 的 Rscript 末尾):

data = data.frame(lapply(data, as.character), stringsAsFactors=FALSE)
data[is.na(data)] = "NA"
于 2015-07-28T10:17:59.423 回答