0

我正在使用缺失值的数据集,因为某些公司(列)在某个时间点(行)之前没有变量值。数据集是:

数据

我一直在寻找一些可以处理这些缺失的方法。一些插补技术具有吸引力,但在应用它们时我收到错误。我称我的数据集为fund1. 我首先应用了missForest,它是随机森林算法的一种实现:

install.packages("missForest")
library(missForest)
fund1.imp <- missForest(fund1)

但我收到:

Error in sample.int(length(x), size, replace, prob) : 
primer argumento inválido

然后我尝试使用 Hmisc,它是一个多用途软件包,可用于数据分析、高级图形、输入缺失值、高级制表、模型拟合和诊断。具体来说,我使用aregImpute()了它允许使用加法回归、引导和预测均值匹配进行均值插补。我只为 5 个变量做了它:

impute_arg <- aregImpute(~ LYB_UN_Equity + AXP_UN_Equity + VZ_UN_Equity + AVGO_UW_Equity +                            
 BA_UN_Equity, data = fund1, n.impute = 5)

错误是:

Error in rcspline.eval(z, knots = parms, nk = nk, inclx = TRUE)

我希望有人告诉我在我的情况下我能做些什么来处理缺失值。如果有人有更好的选择或可以告诉我如何与我正在使用的人一起做,我将非常感激

4

0 回答 0