我在 csv 文件中有非常大的数据集(1,700,000 个原始数据和 300 个稀疏特征)。- 它有很多缺失值。- 数据在数值和分类值之间变化。- 因变量(类)是二进制的(1 或 0)。- 数据高度倾斜,积极响应的数量很少。
现在我需要的是对这些数据应用回归模型和任何其他机器学习算法。
我是新手,我需要帮助.. - 在回归模型的情况下如何处理分类数据?缺失值是否对其影响太大?- 对于像这样的大型、稀疏、倾斜的数据,我可以尝试的最佳预测模型是什么?- 你建议我使用什么程序?我尝试了 Weka,但它甚至无法打开那么多数据(内存故障)。我知道matlab可以打开数字csv或未混合的类别csv,除了必须估算缺失值以允许它打开文件。我知道一点R。
- 我正在尝试使用 excel、access 和 perl 脚本来操作数据。对于这么多的数据,这真的很难。excel不能打开超过近1M的记录,访问不能打开超过255列。任何建议。
提前感谢您的帮助