问题标签 [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1380 浏览

python - 将数据拆分为训练集和测试集

所以我被困在如何在训练/测试上进行 70/30 的分割......这是基于使用 ipython 对 kaggle 的工作工资预测

0 投票
1 回答
209 浏览

python - 为什么在 Python 或 R 中导入 csv 会加倍大小

这可能是一个众所周知的答案......但是为什么一个 11GB 的文件(csv)在导入 Python(Pandas)或 R 时会变成两倍以上的大小?

有问题的数据来自Kaggle 竞赛,解压缩后为 11GB(训练文件)。当我将它加载到 python 或 R 中时,它占用了两倍以上的空间。我在 Windows 上有 32 GB 的 RAM(加载文件时有大约 29 GB 的空闲空间),而且我几乎用完了空间。

在 Python 中:

在 R 中:

0 投票
1 回答
3992 浏览

python - TypeError: fit() 使用 sklearn 和 sklearn_pandas 恰好需要 3 个参数(给定 2 个)

我正在尝试使用 sklearn_pandas 模块来扩展我在 pandas 中所做的工作并涉足机器学习,但我正在努力解决一个我不太了解如何修复的错误。

我正在研究Kaggle上的以下数据集。

它本质上是一个带有浮点值的无标题表(1000 行,40 个特征)。

输出:

到目前为止,一切都很好。但后来我尝试了合身

输出:

我究竟做错了什么?虽然这种情况下的数据都是相同的,但我计划为混合分类、名义和浮点特征制定一个工作流程,而 sklearn_pandas 似乎是合乎逻辑的。

0 投票
1 回答
1014 浏览

python - Pandas 警告“不推荐使用行,请改用索引”

我正在使用 iPython 笔记本中的 pandas 处理 Kaggle Titanic 数据集。

创建数据透视表时,我收到以下警告:

FutureWarning:不推荐使用行,使用索引代替 warnings.warn(msg, FutureWarning)

这是我应该关心的事情吗?我所做的只是创建一个数据透视表:

此外,当我尝试使用数据透视表中的值填写 NA 值时,我收到以下警告:

FutureWarning:索引类型 Int64Index 的标量索引器应该是整数而不是浮点类型(self)。名称),未来警告

0 投票
1 回答
2625 浏览

r - 尝试使用单独将一列拆分为多于 2 列

我是 R 新手,正在练习使用来自 Kaggle 的 Titanic 数据集。我试图将姓氏、名字、称呼和额外信息分开到单独的列中,以便我可以尝试对乘客的年龄进行分类 - 成人或儿童。

以下是来自训练数据集的示例数据:

以下是包含名称的示例:

我可以使用以下代码将姓氏与列的其余部分分开:

但是,当我尝试为名字添加字段时:

我收到此错误:

我是否使用了不正确的语法或一列中的 3 个字段是不可能的?

0 投票
1 回答
3597 浏览

python - pandas srt.lower() 不适用于数据框列

我正在使用 Kaggle 提供的 Titanic 数据集。我把它放在一个数据框中,我想将“sex”列的大小写更改为小写。我正在使用以下代码

并且也在尝试

df['sex'].str.lower()

但是当我运行时,df['sex'].unique()我得到三个唯一值[male, female, Female]

为什么我的代码不降低字符串的大小写并将其保存回数据框以便我[male, female]从该.unique方法中获取?

0 投票
1 回答
335 浏览

r - 如何过滤 r 中 data.table 中的 integer64 类的数据

我有一个来自 kaggle ( http://www.kaggle.com/c/acquire-valued-shoppers-challenge/data ) 的 20GB 交易数据集。

行超过 3 亿,变量为 11。

用 R 处理太重了。所以我想过滤数据。

在此处输入图像描述

id 类是 interger64。

唯一 ID 有 311541,我想要样本 20000。

我正在使用 data.table 但是有一个像图片一样的错误。

有没有办法采样id?

0 投票
1 回答
173 浏览

web-scraping - 用于数据件外壳的大型数据集?

我将开发一个面向研究的数据件住房项目。我正在寻找与 Internet、网页等的任何统计信息相关的数据集。(Google-Analytics,Web-mining),以便我可以对其执行一些智能任务。如果有人知道有关此问题的任何信息,请协助我。

0 投票
1 回答
5049 浏览

r - 使用R将jpg转换为灰度csv

我有一个 JPG 图像文件夹,我正在尝试为 kaggle 比赛进行分类。我在 Python 中看到了一些我认为可以在论坛上完成此操作的代码,但想知道是否可以在 R 中执行此操作?我正在尝试将这个包含许多 jpg 图像的文件夹转换为 csv 文件,其中的数字显示每个像素的灰度,类似于此处的手形数字识别器http://www.kaggle.com/c/digit-recognizer/

所以基本上是 R 中的 jpg -> .csv,显示用于分类的每个像素的灰度数字。我想在上面放一个随机森林或线性模型。

0 投票
1 回答
4459 浏览

pandas - Sci-kit 学习管道返回 indexError: too many indices for array

我正在尝试为一些简单的机器学习项目掌握 sci-kit learn,但我对 Pipelines 感到困惑,想知道我做错了什么......

我正在尝试完成关于 Kaggle 的教程

这是我的代码:

回报:

但是当我尝试训练数据时:

错误是:

谁能指出我正确的方向?