问题标签 [kaggle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在非超级计算机上处理大量数据的通用技术
我正在学习一些人工智能课程,并且已经了解了一些我想尝试的基本算法。我通过举办数据分析竞赛的Kaggle访问了包含大量真实世界数据的多个数据集。
我曾尝试参加几场比赛来提高我的机器学习技能,但一直无法找到访问代码中数据的好方法。Kaggle 以 csv 格式为每个比赛提供一个 50-200mb 的大数据文件。
在我的代码中加载和使用这些表的最佳方式是什么?我的第一直觉是使用数据库,所以我尝试将 csv 加载到 sqlite 单个数据库中,但这给我的计算机带来了巨大的负载,并且在提交期间,我的计算机经常崩溃。接下来,我尝试在共享主机上使用 mysql 服务器,但对其进行查询需要很长时间,这让我的分析代码非常慢。另外,我担心我会超出我的带宽。
到目前为止,在我的课程中,我的导师通常会清理数据并为我们提供可完全加载到 RAM 中的可管理数据集。显然,这对我目前的兴趣来说是不可能的。请建议我应该如何进行。我目前正在使用一台 4 年前的 4gb ram 和双核 2.1Ghz cpu 的 macbook。
顺便说一句,我希望在 Python 中进行大部分分析,因为我最了解这种语言。我想要一个解决方案,让我可以用这种语言进行所有或几乎所有编码。
r - 线性模型函数 lm() 错误:外部函数调用中的 NA/NaN/Inf (arg 1)
说我有 data.framea
我用
col2
有一些NA
值,col3
并且col4
值小于 1。
我不断得到
我检查了邮件列表,似乎是因为NA
s incol2
但我尝试使用na.action=na.exclude/omit/pass
但它们似乎都不起作用。我lm
对前 10 个条目再次进行了测试,绝对不是因为NA
s. 这个警告的问题是每个谷歌结果似乎都指向NA
.
我误解了错误还是我使用lm
错误?
数据在kaggle 上。我正在使用线性回归对MonthlyIncome数据进行建模(因为我无法让某个glm
家庭工作)。我已经创建了自己的变量以供使用,但如果您尝试使用已经存在的变量对MonthlyIncome进行建模,则会失败。
machine-learning - 为什么向线性回归添加特征会降低准确性?
我是 ML 新手,正在参加 kaggle 比赛来学习一点知识。当我将某些特征添加到我的数据集时,准确性会降低。
为什么增加成本的功能不只是加权为零(忽略)?是因为非线性特征会导致局部最小解决方案吗?
谢谢。
kinect - Kinect SDK 可以使用保存的深度/RGB 视频而不是实时 Kinect 运行吗?
这个问题与 Kaggle/CHALEARN 手势识别挑战有关。
您将获得从 Kinect 录制的大量匹配 RGB 和深度视频训练集。我想在这些视频上使用 Kinect SDK 的骨骼跟踪,但经过一堆搜索,我还没有找到是否可以做到的结论性答案。
是否可以将 Kinect SDK 与之前录制的 Kinect 视频一起使用,如果可以,如何使用?谢谢您的帮助。
python - 使用 numpy 读取 csv 文件的主要内存问题
我从 Kaggle 获取了 KDD track1 数据集,并决定在我的 16GB 高内存 EC2 实例上将一个约 2.5GB 的 3 列 CSV 文件加载到内存中:
python 会话占用了我所有的内存(100%),然后被杀死了。
然后我使用 R(通过 read.table)读取了同一个文件,它使用了不到 5GB 的内存,在我调用垃圾收集器后它崩溃到不到 2GB。
我的问题是为什么这会在 numpy 下失败,以及将文件读入内存的正确方法是什么。是的,我可以使用生成器来避免问题,但这不是目标。
numpy - 解决有关 numpy 和 sklearn 的 PyDev 未解决的导入
我几乎可以找到解决这些未解决导入的所有问题。这是我要导入的内容:
在运行 PyDev 的 Mac OS X Lion 上的 eclipse 中,出现以下错误;
请注意,这是用于设置Kaggle。
我没有得到的是,当我在终端中输入以下命令时,一切似乎都很好(我没有看到任何可见的错误):
如果您知道可能的解决方案,请尝试详细说明。我是 Mac 和 PyDev 的新手
r - 如何避免 R 的 LSA 包中的 textmatrix 函数出错
我正在参加这个 Kaggle 比赛,我想知道是否有人熟悉R 中LSA 包中的textmatrix函数。
基本上,textmatrix函数接受一个目录作为参数,它将使用在指定目录中找到的所有文本文件创建一个 textmatrix。
不幸的是,textmatrix函数在遇到包含零项的文本文件时会抛出错误(例如,如果您使用停用词进行过滤,就会发生这种情况)。
有谁知道让 textmatrix忽略以零项结尾的文件的简单方法?或者是一种相对快速的方法来识别和删除这些文件?
蒂亚!
r - 如何使用 Plyr、Apply 或类似方法对该 R 代码进行矢量化?
我编写了以下 R 代码来识别目录中的重复文件。如何使用 plyr 包(或类似包)对 for 循环进行矢量化?我想实现一种比我想出的更惯用的 R 解决方案。
输出是(使用一个小的测试目录):
我试过:
但最终每个键值对(MD5,文件名)都有一个唯一的行。我无法获得所需的紧凑输出。
(背景:作为练习,我转换了 Raymond Hettinger 在他的 PyCon AU 2011 主题演讲“What Makes Python Awesome”中提出的 Python 代码。幻灯片在这里:http ://slidesha.re/WKkh9M 。我能够剪切LOC 减半,但我认为我可以通过矢量化做得更好 - 并了解更多)。
r - 在 R 中使用 randomForest 类型不匹配错误
我正在尝试在 R 中使用随机森林对一些 kaggle 数据进行分类,但是每当我尝试使用我创建的模型时,我都会收到以下错误。
我完全不知道这个错误的原因,谷歌并没有提供太多帮助。任何帮助或见解将不胜感激。下面给出了简单的代码片段,它是对 kaggle 问题之一的响应。