问题标签 [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
11185 浏览

python - 在非超级计算机上处​​理大量数据的通用技术

我正在学习一些人工智能课程,并且已经了解了一些我想尝试的基本算法。我通过举办数据分析竞赛的Kaggle访问了包含大量真实世界数据的多个数据集。

我曾尝试参加几场比赛来提高我的机器学习技能,但一直无法找到访问代码中数据的好方法。Kaggle 以 csv 格式为每个比赛提供一个 50-200mb 的大数据文件。

在我的代码中加载和使用这些表的最佳方式是什么?我的第一直觉是使用数据库,所以我尝试将 csv 加载到 sqlite 单个数据库中,但这给我的计算机带来了巨大的负载,并且在提交期间,我的计算机经常崩溃。接下来,我尝试在共享主机上使用 mysql 服务器,但对其进行查询需要很长时间,这让我的分析代码非常慢。另外,我担心我会超出我的带宽。

到目前为止,在我的课程中,我的导师通常会清理数据并为我们提供可完全加载到 RAM 中的可管理数据集。显然,这对我目前的兴趣来说是不可能的。请建议我应该如何进行。我目前正在使用一台 4 年前的 4gb ram 和双核 2.1Ghz cpu 的 macbook。

顺便说一句,我希望在 Python 中进行大部分分析,因为我最了解这种语言。我想要一个解决方案,让我可以用这种语言进行所有或几乎所有编码。

0 投票
10 回答
104587 浏览

r - 线性模型函数 lm() 错误:外部函数调用中的 NA/NaN/Inf (arg 1)

说我有 data.framea

我用

col2有一些NA值,col3并且col4值小于 1。

我不断得到

我检查了邮件列表,似乎是因为NAs incol2但我尝试使用na.action=na.exclude/omit/pass但它们似乎都不起作用。我lm对前 10 个条目再次进行了测试,绝对不是因为NAs. 这个警告的问题是每个谷歌结果似乎都指向NA.

我误解了错误还是我使用lm错误?

数据在kaggle 上。我正在使用线性回归对MonthlyIncome数据进行建模(因为我无法让某个glm家庭工作)。我已经创建了自己的变量以供使用,但如果您尝试使用已经存在的变量对MonthlyIncome进行建模,则会失败。

0 投票
2 回答
3092 浏览

machine-learning - 为什么向线性回归添加特征会降低准确性?

我是 ML 新手,正在参加 kaggle 比赛来学习一点知识。当我将某些特征添加到我的数据集时,准确性会降低。

为什么增加成本的功能不只是加权为零(忽略)?是因为非线性特征会导致局部最小解决方案吗?

谢谢。

0 投票
1 回答
1141 浏览

kinect - Kinect SDK 可以使用保存的深度/RGB 视频而不是实时 Kinect 运行吗?

这个问题与 Kaggle/CHALEARN 手势识别挑战有关。

您将获得从 Kinect 录制的大量匹配 RGB 和深度视频训练集。我想在这些视频上使用 Kinect SDK 的骨骼跟踪,但经过一堆搜索,我还没有找到是否可以做到的结论性答案。

是否可以将 Kinect SDK 与之前录制的 Kinect 视频一起使用,如果可以,如何使用?谢谢您的帮助。

0 投票
3 回答
2915 浏览

python - 使用 numpy 读取 csv 文件的主要内存问题

我从 Kaggle 获取了 KDD track1 数据集,并决定在我的 16GB 高内存 EC2 实例上将一个约 2.5GB 的 3 列 CSV 文件加载到内存中:

python 会话占用了我所有的内存(100%),然后被杀死了。

然后我使用 R(通过 read.table)读取了同一个文件,它使用了不到 5GB 的内存,在我调用垃圾收集器后它崩溃到不到 2GB。

我的问题是为什么这会在 numpy 下失败,以及将文件读入内存的正确方法是什么。是的,我可以使用生成器来避免问题,但这不是目标。

0 投票
3 回答
5857 浏览

numpy - 解决有关 numpy 和 sklearn 的 PyDev 未解决的导入

我几乎可以找到解决这些未解决导入的所有问题。这是我要导入的内容:

在运行 PyDev 的 Mac OS X Lion 上的 eclipse 中,出现以下错误;

请注意,这是用于设置Kaggle

我没有得到的是,当我在终端中输入以下命令时,一切似乎都很好(我没有看到任何可见的错误):

如果您知道可能的解决方案,请尝试详细说明。我是 Mac 和 PyDev 的新手

0 投票
1 回答
19419 浏览

r - 如何查看R中的最近邻居?

首先让我说我一般没有 R、KNN 或数据科学方面的经验。我最近发现了Kaggle,并且一直在玩数字识别竞赛/教程。

在本教程中,他们提供了一些示例代码来帮助您开始基本提交:

我的问题是:

  1. 如何查看为特定测试行选择的最近邻居?
  2. 如何修改为我选择的这十个中的哪一个results

这些问题可能过于宽泛。如果是这样,我会欢迎任何可以为我指明正确道路的链接。

可能在这里说了一些没有意义的话。如果是这种情况,请纠正我。

0 投票
1 回答
725 浏览

r - 如何避免 R 的 LSA 包中的 textmatrix 函数出错

我正在参加这个 Kaggle 比赛,我想知道是否有人熟悉R 中LSA 包中的textmatrix函数。

基本上,textmatrix函数接受一个目录作为参数,它将使用在指定目录中找到的所有文本文件创建一个 textmatrix。

不幸的是,textmatrix函数在遇到包含零项的文本文件时会抛出错误(例如,如果您使用停用词进行过滤,就会发生这种情况)。

有谁知道让 textmatrix忽略以零项结尾的文件的简单方法?或者是一种相对快速的方法来识别和删除这些文件?

蒂亚!

0 投票
2 回答
331 浏览

r - 如何使用 Plyr、Apply 或类似方法对该 R 代码进行矢量化?

我编写了以下 R 代码来识别目录中的重复文件。如何使用 plyr 包(或类似包)对 for 循环进行矢量化?我想实现一种比我想出的更惯用的 R 解决方案。

输出是(使用一个小的测试目录):

我试过:

但最终每个键值对(MD5,文件名)都有一个唯一的行。我无法获得所需的紧凑输出。

(背景:作为练习,我转换了 Raymond Hettinger 在他的 PyCon AU 2011 主题演讲“What Makes Python Awesome”中提出的 Python 代码。幻灯片在这里:http ://slidesha.re/WKkh9M 。我能够剪切LOC 减半,但我认为我可以通过矢量化做得更好 - 并了解更多)。

0 投票
4 回答
5741 浏览

r - 在 R 中使用 randomForest 类型不匹配错误

我正在尝试在 R 中使用随机森林对一些 kaggle 数据进行分类,但是每当我尝试使用我创建的模型时,我都会收到以下错误。

我完全不知道这个错误的原因,谷歌并没有提供太多帮助。任何帮助或见解将不胜感激。下面给出了简单的代码片段,它是对 kaggle 问题之一的响应。