问题标签 [kaggle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将数据拆分为训练集和测试集
所以我被困在如何在训练/测试上进行 70/30 的分割......这是基于使用 ipython 对 kaggle 的工作工资预测
python - 为什么在 Python 或 R 中导入 csv 会加倍大小
这可能是一个众所周知的答案......但是为什么一个 11GB 的文件(csv)在导入 Python(Pandas)或 R 时会变成两倍以上的大小?
有问题的数据来自Kaggle 竞赛,解压缩后为 11GB(训练文件)。当我将它加载到 python 或 R 中时,它占用了两倍以上的空间。我在 Windows 上有 32 GB 的 RAM(加载文件时有大约 29 GB 的空闲空间),而且我几乎用完了空间。
在 Python 中:
在 R 中:
python - TypeError: fit() 使用 sklearn 和 sklearn_pandas 恰好需要 3 个参数(给定 2 个)
我正在尝试使用 sklearn_pandas 模块来扩展我在 pandas 中所做的工作并涉足机器学习,但我正在努力解决一个我不太了解如何修复的错误。
我正在研究Kaggle上的以下数据集。
它本质上是一个带有浮点值的无标题表(1000 行,40 个特征)。
输出:
到目前为止,一切都很好。但后来我尝试了合身
输出:
我究竟做错了什么?虽然这种情况下的数据都是相同的,但我计划为混合分类、名义和浮点特征制定一个工作流程,而 sklearn_pandas 似乎是合乎逻辑的。
python - Pandas 警告“不推荐使用行,请改用索引”
我正在使用 iPython 笔记本中的 pandas 处理 Kaggle Titanic 数据集。
创建数据透视表时,我收到以下警告:
FutureWarning:不推荐使用行,使用索引代替 warnings.warn(msg, FutureWarning)
这是我应该关心的事情吗?我所做的只是创建一个数据透视表:
此外,当我尝试使用数据透视表中的值填写 NA 值时,我收到以下警告:
FutureWarning:索引类型 Int64Index 的标量索引器应该是整数而不是浮点类型(self)。名称),未来警告
r - 尝试使用单独将一列拆分为多于 2 列
我是 R 新手,正在练习使用来自 Kaggle 的 Titanic 数据集。我试图将姓氏、名字、称呼和额外信息分开到单独的列中,以便我可以尝试对乘客的年龄进行分类 - 成人或儿童。
以下是来自训练数据集的示例数据:
以下是包含名称的示例:
我可以使用以下代码将姓氏与列的其余部分分开:
但是,当我尝试为名字添加字段时:
我收到此错误:
我是否使用了不正确的语法或一列中的 3 个字段是不可能的?
python - pandas srt.lower() 不适用于数据框列
我正在使用 Kaggle 提供的 Titanic 数据集。我把它放在一个数据框中,我想将“sex”列的大小写更改为小写。我正在使用以下代码
并且也在尝试
df['sex'].str.lower()
但是当我运行时,df['sex'].unique()
我得到三个唯一值[male, female, Female]
。
为什么我的代码不降低字符串的大小写并将其保存回数据框以便我[male, female]
从该.unique
方法中获取?
r - 如何过滤 r 中 data.table 中的 integer64 类的数据
我有一个来自 kaggle ( http://www.kaggle.com/c/acquire-valued-shoppers-challenge/data ) 的 20GB 交易数据集。
行超过 3 亿,变量为 11。
用 R 处理太重了。所以我想过滤数据。
id 类是 interger64。
唯一 ID 有 311541,我想要样本 20000。
我正在使用 data.table 但是有一个像图片一样的错误。
有没有办法采样id?
web-scraping - 用于数据件外壳的大型数据集?
我将开发一个面向研究的数据件住房项目。我正在寻找与 Internet、网页等的任何统计信息相关的数据集。(Google-Analytics,Web-mining),以便我可以对其执行一些智能任务。如果有人知道有关此问题的任何信息,请协助我。
r - 使用R将jpg转换为灰度csv
我有一个 JPG 图像文件夹,我正在尝试为 kaggle 比赛进行分类。我在 Python 中看到了一些我认为可以在论坛上完成此操作的代码,但想知道是否可以在 R 中执行此操作?我正在尝试将这个包含许多 jpg 图像的文件夹转换为 csv 文件,其中的数字显示每个像素的灰度,类似于此处的手形数字识别器http://www.kaggle.com/c/digit-recognizer/
所以基本上是 R 中的 jpg -> .csv,显示用于分类的每个像素的灰度数字。我想在上面放一个随机森林或线性模型。
pandas - Sci-kit 学习管道返回 indexError: too many indices for array
我正在尝试为一些简单的机器学习项目掌握 sci-kit learn,但我对 Pipelines 感到困惑,想知道我做错了什么......
我正在尝试完成关于 Kaggle 的教程
这是我的代码:
回报:
但是当我尝试训练数据时:
错误是:
谁能指出我正确的方向?