2

我在拆分 Sparklyr 生成的随机森林的结果时遇到问题。

我正在使用以下代码生成一个模型,该模型预测 {0 | 1} 值并预测指定验证集的结果。

model <- ml_random_forest( tbl(sc,"train_set") , formulea)

prediction <- sdf_predict( model, tbl(sc,"validation_set") ) %>% select(account_no, probability , prediction)

此生成的预测对象如下所示:

Source:   query [3.744e+06 x 3]
Database: spark connection master=yarn-client app=Dev - model v.11 local=FALSE

   account_no probability prediction
        <dbl>      <list>      <dbl>
1     5053177   <dbl [2]>          1
2     6508441   <dbl [2]>          1
3     7805527   <dbl [2]>          1
4    10001696   <dbl [2]>          1
5    10004230   <dbl [2]>          1
6    10005647   <dbl [2]>          1
7    10006029   <dbl [2]>          1
8    10018558   <dbl [2]>          0
9    10019161   <dbl [2]>          1
10   10031652   <dbl [2]>          1
# ... with 3.744e+06 more rows

如何在 Spark 中拆分列表,以仅获取列表的第一个数字。像这样的东西...

   account_no probability 
        <dbl>      <dbl>
1     5053177   <0.9726>          
2     6508441   <0.1234>          

希望有人可以帮助解决这个问题。

问候, 吉茨克

4

1 回答 1

3

在 GitHub 上安装最新的开发版本并查找?sdf_separate_column

prediction %>%  
  sdf_separate_column("probability", c("p0", "p1"))
于 2017-06-06T02:51:17.533 回答