问题标签 [kaggle]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

945 问题

0 投票

1 回答

1380 浏览

python - 将数据拆分为训练集和测试集

所以我被困在如何在训练/测试上进行 70/30 的分割......这是基于使用 ipython 对 kaggle 的工作工资预测

python kaggle

2014-06-23T06:35:04.810

0 投票

1 回答

209 浏览

python - 为什么在 Python 或 R 中导入 csv 会加倍大小

这可能是一个众所周知的答案......但是为什么一个 11GB 的文件（csv）在导入 Python（Pandas）或 R 时会变成两倍以上的大小？

有问题的数据来自Kaggle 竞赛，解压缩后为 11GB（训练文件）。当我将它加载到 python 或 R 中时，它占用了两倍以上的空间。我在 Windows 上有 32 GB 的 RAM（加载文件时有大约 29 GB 的空闲空间），而且我几乎用完了空间。

在 Python 中：

在 R 中：

2014-06-27T00:19:28.610

0 投票

1 回答

3992 浏览

python - TypeError: fit() 使用 sklearn 和 sklearn_pandas 恰好需要 3 个参数（给定 2 个）

我正在尝试使用 sklearn_pandas 模块来扩展我在 pandas 中所做的工作并涉足机器学习，但我正在努力解决一个我不太了解如何修复的错误。

我正在研究Kaggle上的以下数据集。

它本质上是一个带有浮点值的无标题表（1000 行，40 个特征）。

输出：

到目前为止，一切都很好。但后来我尝试了合身

输出：

我究竟做错了什么？虽然这种情况下的数据都是相同的，但我计划为混合分类、名义和浮点特征制定一个工作流程，而 sklearn_pandas 似乎是合乎逻辑的。

python pandas machine-learning scikit-learn kaggle

2014-07-05T05:22:10.587

0 投票

1 回答

1014 浏览

python - Pandas 警告“不推荐使用行，请改用索引”

我正在使用 iPython 笔记本中的 pandas 处理 Kaggle Titanic 数据集。

创建数据透视表时，我收到以下警告：

FutureWarning：不推荐使用行，使用索引代替 warnings.warn(msg, FutureWarning)

这是我应该关心的事情吗？我所做的只是创建一个数据透视表：

此外，当我尝试使用数据透视表中的值填写 NA 值时，我收到以下警告：

FutureWarning：索引类型 Int64Index 的标量索引器应该是整数而不是浮点类型（self）。名称），未来警告

python pandas pivot-table kaggle

2014-08-05T19:00:14.393

0 投票

1 回答

2625 浏览

r - 尝试使用单独将一列拆分为多于 2 列

我是 R 新手，正在练习使用来自 Kaggle 的 Titanic 数据集。我试图将姓氏、名字、称呼和额外信息分开到单独的列中，以便我可以尝试对乘客的年龄进行分类 - 成人或儿童。

以下是来自训练数据集的示例数据：

以下是包含名称的示例：

我可以使用以下代码将姓氏与列的其余部分分开：

但是，当我尝试为名字添加字段时：

我收到此错误：

我是否使用了不正确的语法或一列中的 3 个字段是不可能的？

r dplyr tidyr kaggle

2014-10-06T20:53:02.307

0 投票

1 回答

3597 浏览

python - pandas srt.lower() 不适用于数据框列

我正在使用 Kaggle 提供的 Titanic 数据集。我把它放在一个数据框中，我想将“sex”列的大小写更改为小写。我正在使用以下代码

并且也在尝试

df['sex'].str.lower()

但是当我运行时，df['sex'].unique()我得到三个唯一值[male, female, Female]。

为什么我的代码不降低字符串的大小写并将其保存回数据框以便我[male, female]从该.unique方法中获取？

python pandas lowercase kaggle

2014-10-20T19:35:35.627

0 投票

1 回答

335 浏览

r - 如何过滤 r 中 data.table 中的 integer64 类的数据

我有一个来自 kaggle ( http://www.kaggle.com/c/acquire-valued-shoppers-challenge/data ) 的 20GB 交易数据集。

行超过 3 亿，变量为 11。

用 R 处理太重了。所以我想过滤数据。

在此处输入图像描述

id 类是 interger64。

唯一 ID 有 311541，我想要样本 20000。

我正在使用 data.table 但是有一个像图片一样的错误。

有没有办法采样id？

r data.table kaggle

2014-11-19T06:06:48.417

0 投票

1 回答

173 浏览

web-scraping - 用于数据件外壳的大型数据集？

我将开发一个面向研究的数据件住房项目。我正在寻找与 Internet、网页等的任何统计信息相关的数据集。（Google-Analytics，Web-mining），以便我可以对其执行一些智能任务。如果有人知道有关此问题的任何信息，请协助我。

web-scraping data-warehouse kaggle

2014-11-26T17:32:03.717

0 投票

1 回答

5049 浏览

r - 使用R将jpg转换为灰度csv

我有一个 JPG 图像文件夹，我正在尝试为 kaggle 比赛进行分类。我在 Python 中看到了一些我认为可以在论坛上完成此操作的代码，但想知道是否可以在 R 中执行此操作？我正在尝试将这个包含许多 jpg 图像的文件夹转换为 csv 文件，其中的数字显示每个像素的灰度，类似于此处的手形数字识别器http://www.kaggle.com/c/digit-recognizer/

所以基本上是 R 中的 jpg -> .csv，显示用于分类的每个像素的灰度数字。我想在上面放一个随机森林或线性模型。

r csv jpeg grayscale kaggle

2014-12-15T17:46:57.500

0 投票

1 回答

4459 浏览

pandas - Sci-kit 学习管道返回 indexError: too many indices for array

我正在尝试为一些简单的机器学习项目掌握 sci-kit learn，但我对 Pipelines 感到困惑，想知道我做错了什么......

我正在尝试完成关于 Kaggle 的教程

这是我的代码：

回报：

但是当我尝试训练数据时：

错误是：

谁能指出我正确的方向？

pandas scikit-learn kaggle

2014-12-15T20:16:17.353

1 2 3 4 5 6 7 8 9 10

问题标签 [kaggle]

Reference