“kaggle”的相关标签问题_Stack Overflow中文网

0 投票

5 回答

11185 浏览

python - 在非超级计算机上处理大量数据的通用技术

我正在学习一些人工智能课程，并且已经了解了一些我想尝试的基本算法。我通过举办数据分析竞赛的Kaggle访问了包含大量真实世界数据的多个数据集。

我曾尝试参加几场比赛来提高我的机器学习技能，但一直无法找到访问代码中数据的好方法。Kaggle 以 csv 格式为每个比赛提供一个 50-200mb 的大数据文件。

在我的代码中加载和使用这些表的最佳方式是什么？我的第一直觉是使用数据库，所以我尝试将 csv 加载到 sqlite 单个数据库中，但这给我的计算机带来了巨大的负载，并且在提交期间，我的计算机经常崩溃。接下来，我尝试在共享主机上使用 mysql 服务器，但对其进行查询需要很长时间，这让我的分析代码非常慢。另外，我担心我会超出我的带宽。

到目前为止，在我的课程中，我的导师通常会清理数据并为我们提供可完全加载到 RAM 中的可管理数据集。显然，这对我目前的兴趣来说是不可能的。请建议我应该如何进行。我目前正在使用一台 4 年前的 4gb ram 和双核 2.1Ghz cpu 的 macbook。

顺便说一句，我希望在 Python 中进行大部分分析，因为我最了解这种语言。我想要一个解决方案，让我可以用这种语言进行所有或几乎所有编码。

2011-08-18T22:20:14.380

0 投票

10 回答

104587 浏览

r - 线性模型函数 lm() 错误：外部函数调用中的 NA/NaN/Inf (arg 1)

说我有 data.framea

我用

col2有一些NA值，col3并且col4值小于 1。

我不断得到

我检查了邮件列表，似乎是因为NAs incol2但我尝试使用na.action=na.exclude/omit/pass但它们似乎都不起作用。我lm对前 10 个条目再次进行了测试，绝对不是因为NAs. 这个警告的问题是每个谷歌结果似乎都指向NA.

我误解了错误还是我使用lm错误？

数据在kaggle 上。我正在使用线性回归对MonthlyIncome数据进行建模（因为我无法让某个glm家庭工作）。我已经创建了自己的变量以供使用，但如果您尝试使用已经存在的变量对MonthlyIncome进行建模，则会失败。

r nan lm kaggle

2011-12-07T13:06:52.390

0 投票

2 回答

3092 浏览

machine-learning - 为什么向线性回归添加特征会降低准确性？

我是 ML 新手，正在参加 kaggle 比赛来学习一点知识。当我将某些特征添加到我的数据集时，准确性会降低。

为什么增加成本的功能不只是加权为零（忽略）？是因为非线性特征会导致局部最小解决方案吗？

谢谢。

machine-learning linear-regression kaggle

2011-12-12T01:54:03.217

0 投票

1 回答

1141 浏览

kinect - Kinect SDK 可以使用保存的深度/RGB 视频而不是实时 Kinect 运行吗？

这个问题与 Kaggle/CHALEARN 手势识别挑战有关。

您将获得从 Kinect 录制的大量匹配 RGB 和深度视频训练集。我想在这些视频上使用 Kinect SDK 的骨骼跟踪，但经过一堆搜索，我还没有找到是否可以做到的结论性答案。

是否可以将 Kinect SDK 与之前录制的 Kinect 视频一起使用，如果可以，如何使用？谢谢您的帮助。

kinect kaggle

2011-12-27T21:10:56.333

0 投票

3 回答

2915 浏览

python - 使用 numpy 读取 csv 文件的主要内存问题

我从 Kaggle 获取了 KDD track1 数据集，并决定在我的 16GB 高内存 EC2 实例上将一个约 2.5GB 的 3 列 CSV 文件加载到内存中：

python 会话占用了我所有的内存（100%），然后被杀死了。

然后我使用 R（通过 read.table）读取了同一个文件，它使用了不到 5GB 的内存，在我调用垃圾收集器后它崩溃到不到 2GB。

我的问题是为什么这会在 numpy 下失败，以及将文件读入内存的正确方法是什么。是的，我可以使用生成器来避免问题，但这不是目标。

python r pandas numpy kaggle

2012-04-22T02:35:06.523

0 投票

3 回答

5857 浏览

numpy - 解决有关 numpy 和 sklearn 的 PyDev 未解决的导入

我几乎可以找到解决这些未解决导入的所有问题。这是我要导入的内容：

在运行 PyDev 的 Mac OS X Lion 上的 eclipse 中，出现以下错误；

请注意，这是用于设置Kaggle。

我没有得到的是，当我在终端中输入以下命令时，一切似乎都很好（我没有看到任何可见的错误）：

如果您知道可能的解决方案，请尝试详细说明。我是 Mac 和 PyDev 的新手

numpy scipy scikit-learn pydev kaggle

2012-07-21T18:29:03.813

0 投票

1 回答

19419 浏览

r - 如何查看R中的最近邻居？

首先让我说我一般没有 R、KNN 或数据科学方面的经验。我最近发现了Kaggle，并且一直在玩数字识别竞赛/教程。

在本教程中，他们提供了一些示例代码来帮助您开始基本提交：

我的问题是：

如何查看为特定测试行选择的最近邻居？
如何修改为我选择的这十个中的哪一个results？

这些问题可能过于宽泛。如果是这样，我会欢迎任何可以为我指明正确道路的链接。

我很可能在这里说了一些没有意义的话。如果是这种情况，请纠正我。

r kaggle

2012-08-28T05:27:01.403

0 投票

1 回答

725 浏览

r - 如何避免 R 的 LSA 包中的 textmatrix 函数出错

我正在参加这个 Kaggle 比赛，我想知道是否有人熟悉R 中LSA 包中的textmatrix函数。

基本上，textmatrix函数接受一个目录作为参数，它将使用在指定目录中找到的所有文本文件创建一个 textmatrix。

不幸的是，textmatrix函数在遇到包含零项的文本文件时会抛出错误（例如，如果您使用停用词进行过滤，就会发生这种情况）。

有谁知道让 textmatrix忽略以零项结尾的文件的简单方法？或者是一种相对快速的方法来识别和删除这些文件？

蒂亚！

r kaggle lsa

user141146

2012-08-28T01:46:52.820

0 投票

2 回答

331 浏览

r - 如何使用 Plyr、Apply 或类似方法对该 R 代码进行矢量化？

我编写了以下 R 代码来识别目录中的重复文件。如何使用 plyr 包（或类似包）对 for 循环进行矢量化？我想实现一种比我想出的更惯用的 R 解决方案。

输出是（使用一个小的测试目录）：

我试过：

但最终每个键值对（MD5，文件名）都有一个唯一的行。我无法获得所需的紧凑输出。

（背景：作为练习，我转换了 Raymond Hettinger 在他的 PyCon AU 2011 主题演讲“What Makes Python Awesome”中提出的 Python 代码。幻灯片在这里：http ://slidesha.re/WKkh9M 。我能够剪切LOC 减半，但我认为我可以通过矢量化做得更好 - 并了解更多）。

r vectorization plyr kaggle

2012-12-27T19:50:11.253

0 投票

4 回答

5741 浏览

r - 在 R 中使用 randomForest 类型不匹配错误

我正在尝试在 R 中使用随机森林对一些 kaggle 数据进行分类，但是每当我尝试使用我创建的模型时，我都会收到以下错误。

我完全不知道这个错误的原因，谷歌并没有提供太多帮助。任何帮助或见解将不胜感激。下面给出了简单的代码片段，它是对 kaggle 问题之一的响应。

r error-handling random-forest kaggle

2013-04-23T15:13:23.560

问题标签 [kaggle]

Reference