我在拆分 Sparklyr 生成的随机森林的结果时遇到问题。
我正在使用以下代码生成一个模型,该模型预测 {0 | 1} 值并预测指定验证集的结果。
model <- ml_random_forest( tbl(sc,"train_set") , formulea)
prediction <- sdf_predict( model, tbl(sc,"validation_set") ) %>% select(account_no, probability , prediction)
此生成的预测对象如下所示:
Source: query [3.744e+06 x 3]
Database: spark connection master=yarn-client app=Dev - model v.11 local=FALSE
account_no probability prediction
<dbl> <list> <dbl>
1 5053177 <dbl [2]> 1
2 6508441 <dbl [2]> 1
3 7805527 <dbl [2]> 1
4 10001696 <dbl [2]> 1
5 10004230 <dbl [2]> 1
6 10005647 <dbl [2]> 1
7 10006029 <dbl [2]> 1
8 10018558 <dbl [2]> 0
9 10019161 <dbl [2]> 1
10 10031652 <dbl [2]> 1
# ... with 3.744e+06 more rows
如何在 Spark 中拆分列表,以仅获取列表的第一个数字。像这样的东西...
account_no probability
<dbl> <dbl>
1 5053177 <0.9726>
2 6508441 <0.1234>
希望有人可以帮助解决这个问题。
问候, 吉茨克