machine-learning - 对 GB 中的大型数据集实施最大似然估计的最佳/首选方法是什么

Question

我有一个千兆字节（GB）的数据集，并想估计其中缺失值的参数。

在机器学习中有一种称为 MLE（最大似然估计）的算法可以用于它。
由于 R 可能无法在如此大的数据集上工作，那么哪个库最适合它呢？

score 1 · Accepted Answer

通过维基：MLE：

在统计学中，最大似然估计 (MLE) 是一种估计统计模型参数的方法。当应用于数据集并给出统计模型时，最大似然估计提供模型参数的估计。

通常，您需要两个步骤才能应用 MLE：

获取数据集
确定统计模型

此时，如果您可以获得 MLE 估计的解析形式的解，只需将您的数据流式传输到 mle-estimate 计算中，例如，对于高斯分布，要估计均值，您只需累积总和，并保持计数和样本均值将是您的 mle-estimate。

然而，当模型涉及许多参数并且它pdf是高度非线性的时。在这种情况下，必须使用非线性优化算法在数值上寻求 MLE 估计。如果您的数据量很大，请尝试stochastic gradient descent，真实梯度由单个示例的梯度近似。当算法扫描训练集时，它会为每个训练示例执行更新公式。这样您仍然可以以多次扫描的方式一次将一个数据流式传输到您的更新程序。这样，内存限制根本不应该成为问题。

machine-learning - 对 GB 中的大型数据集实施最大似然估计的最佳/首选方法是什么

1 回答 1

Related

Reference