问题标签 [missing-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 处理相关性计算的缺失值
我有很多缺失值的巨大矩阵。我想得到变量之间的相关性。
1.是解决方案
比下面好吗?
我已经只选择了缺失值超过 20% 的变量。
2.什么是最有意义的方法?
r - 从向量中删除 NA 值
我有一个巨大的向量,它有几个值,我试图在该向量中找到最大值(向量都是数字),但由于这些值NA
我不能这样做。NA
如何删除这些NA
值以便计算最大值?
r - 替换 R 中缺失值的均值或众数
我有一个由具有缺失值的混合数据类型(数字、字符、因子、序数因子)组成的大型数据库,并且我正在尝试创建一个 for 循环以使用相应列的平均值(如果为数字或字符/因子的模式。
这是我到目前为止所拥有的:
其中“模式”是功能:
似乎它只是忽略了这些陈述,没有给出任何错误……我还尝试使用索引来解决第一部分:
但我收到此错误:“colMeans 中的错误(df_test,na.rm = TRUE):'x' 必须是数字”
有谁知道如何解决这个问题?
非常感谢大家的大力帮助!-F
r - 如何使用 R 使用地理邻近度填充缺失的分类值?
我有一些看起来像这样的数据:
我想根据经纬度坐标估算大学列的缺失值。这显然是虚构的,因为数据的 500K 行在大学列上相当稀疏。像 Amelia 这样的插补包似乎想根据线性模型拟合数值数据,而 zoo 似乎想根据某种有序序列填充缺失值,而我没有。我想匹配接近的经纬度,而不仅仅是精确的经纬度对,所以我不能只通过匹配另一列的值来填充一列。
我计划通过查找与大学相关的所有经纬度对来解决该问题,在它们周围绘制一个边界框,然后对于所有具有经纬度对但缺少大学数据的行,根据哪个纬度为大学添加适当的值- 长框,它们位于,或者可能在已知位置中点的某个半径内。
有没有人做过类似的事情?是否有任何软件包可以更容易地对地理上最接近的经纬度对进行分组,甚至可以进行基于地理的插补?
如果可行,我想尝试根据数据中的现有值估算其他一些缺失值(例如 90% 的行带有 xyz、foo、哈佛值在第 4 类中也有狮子,所以我们可以为 cat4 估算一些缺失值),但这是另一个问题,我会想象一个更难的问题,我什至可能没有足够的数据来成功完成。
haskell - 在 Haskell 中有效处理稀疏缺失的数据
我正在尝试使用 Haskell 进行数据分析。因为我的数据集相当大(数十万甚至数百万个观察值),所以我希望使用未装箱的数据结构来提高效率,比如 Data.Vector.Unboxed。
问题是数据包含一些缺失值。我想避免将它们编码为“99”或类似的,因为这只是一个丑陋的黑客和潜在的错误来源。从我的 Haskell 新手的角度来看,我可以想到以下选项:
- 未打包值的盒装向量
Maybe
。类似的东西(如果有错误请更正):
data myMaybe a = Nothing | Just {-# UNPACK #-} !a
- (unboxable)元组的未装箱向量,带有指示缺失的布尔元素:
newtype instance Data.Vector.Unboxed.Vector (MyDatum a) = MyDatum (Data.Vector.Unboxed.Vector (Bool,a))
这可能与此问题的 OP 选择的方法相同(模数Int
)Bool
,但唯一的答案似乎没有明确解决缺失的问题值/稀疏性(而不是专注于如何表示整个数组未装箱,而不是作为未装箱向量的装箱向量)。 - 一组未装箱的向量,一个带有值,另一个带有要注入缺失值的索引,或非缺失值的运行长度,或一些等效信息。这可能比选项 2 更可取。如果缺失很少?
我试图保持在向量表示中,而不是像这样,因为它是稀疏的缺失值,而不是数据。
欢迎对这些选项的相对优点/可行性/现成的可用性/可能的性能提出任何评论,或者确实是指向完全不同的替代方案的指针!
编辑:
- 有人指出,答案可能取决于我打算对数据执行什么样的操作。目前,将每个观测值存储在单个向量中似乎比每个变量更方便。由于向量中的条目因此将引用不同的变量,因此不太可能出现类似“折叠”的操作。
- 我猜 2. 会在内部存储“有效位”向量 à la 3. 如果合适的话会自动存储,所以 3. 可以被删除吗?
r - 如何在 R 数据框中用零替换 NA 值?
我有一个数据框,有些列有NA
值。
如何NA
用零替换这些值?
r - 在 data.frame 中报告缺失值的优雅方式
这是我编写的一小段代码,用于报告数据框中缺少值的变量。我试图想出一种更优雅的方法来做到这一点,一种可能返回 data.frame 的方法,但我被困住了:
编辑:我正在处理具有数十到数百个变量的 data.frames,因此我们只报告具有缺失值的变量是关键。
c - 使用 C 中的套接字在 TCP 传输中丢失数据
我正在以 200 个字符块下载在线 .dat 文件,并且缺少一些数据。大多数(但不是所有)块完全下载,但有些仅部分下载,并且当我将收到的数据直接打印到本地文本文件时会丢失字符。
谢谢你。
我正在使用的程序如下。
r - 丢弃 R 中的单个属性
在 R 中,该na.omit()
函数可用于丢弃 data.frame 中包含 NA 值的条目。作为副作用,如果确实丢弃了行,则该函数将属性“省略”添加到包含被丢弃的 row.names 的向量的结果中。
我想丢弃这个“省略”属性,因为我不需要它。最好的方法是什么?
python - 在 Python 中替换缺失值
我想用上一个已知值替换缺失值(无)。这是我的代码。但它不起作用。对更好的算法有什么建议吗?