问题标签 [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1682 浏览

python - 使用 pandas 和 scikit 的梯度提升分类器稀疏矩阵问题

我一直在使用以下代码进行多类分类,它使用来自 scikit-learn 的 GradientBoostingClassifier。我面临一个将稀疏矩阵转换为密集矩阵的已知问题。

我已经应用了以下解决方案stackoverflow,但它不适用于我的情况。虽然我使用的解决方案适用于 RandomForestClassifier,但 AFAIK 它应该适用于 GradientBoostingClassifier!

如果我用 RandomForestClassifier 替换 GradientBoostingClassifier,也可以完美地添加此代码。

本例中的数据是具有 8 个目标类的 93 个数字特征。数据可以从Kaggle获取

追溯:

0 投票
1 回答
6485 浏览

r - R:强制引入的 Kaggle Titanic 数据集随机森林 NA

我目前使用泰坦尼克号数据集在 Kaggle 上练习 R 我正在使用随机森林算法

下面是代码

我收到以下错误

我的数据如下所示

如果我只输入以下内容,我没有强制问题,据我所知,这是唯一发生强制以创建 NA 值的地方

任何人都可以看到问题

感谢您的时间

0 投票
1 回答
1671 浏览

r - 如何在关于泰坦尼克号的 Kaggle 比赛中使用 Rs 神经网络包

我正在尝试为有关泰坦尼克号的 Kaggle 竞赛运行此代码以进行锻炼。它是免费的,是初学者的案例。我在这个包中使用 R 中的神经网络包。

这是来自网站的火车数据:

在这里,我根据幸存者训练神经网络。我想看看我是否可以预测谁幸存下来:

网络是训练好的。我加载测试数据并准备测试。

预测的最终测试:

首先,我不知道我应该采取多少隐藏的神经元。有时需要很长时间,当我成功时,我无法使用测试数据进行测试,因为发生错误,表明两个数据集不兼容:

我在这里做错了什么?

整个代码:

0 投票
1 回答
12857 浏览

python - Pandas 错误 - 遇到无效值

我是熊猫新手。我下载并安装了Anaconda。然后我尝试通过 Spyder 应用程序运行以下代码:

尽管这会按我的预期打印数据帧,但它也显示了这些错误

为什么我会收到这些错误?

编辑:我刚刚在IPython笔记本中测试了上面的代码,它可以正常工作。那么,我的Spyder安装有问题吗?任何帮助,将不胜感激。

EDIT2:经过一些测试,我可以读取 CSV 的前 5 行而不会收到警告。因此,我怀疑类型列NaN的第 6 行中的 afloat64正在触发警告。

0 投票
2 回答
6853 浏览

python - 在实例化时自动调用 Python 类方法的最佳方式

我有一个机器学习算法,它涉及一系列步骤,例如清理数据、准备训练数据等。每个步骤都存储在 python 类的单独方法中。我想知道构造我的类的最佳实践方法是什么,以便在类实例化时自动执行这些步骤。

这是我所做的(代码是说明性的,但这种方法适用于真正的算法)。感觉有点笨拙。有没有更优雅的方式?

0 投票
0 回答
394 浏览

r - Kaggle Titanic:用于客舱预测的灾难决策树的机器学习

其中一个变量“Cabin”具有大量的 NA。我正在尝试使用决策树(rpart)来预测客舱不可用的乘客的客舱甲板。

目前,这是我的数据表的结构,它是训练集和测试集的 rbind。

请注意,我使用 strsplit 创建了“Cabin2”,它提取了“Cabin”变量的字母,据我了解,它对应于泰坦尼克号上的甲板。这大大减少了我与“小屋”战斗的关卡数量,从 187 个“小屋”减少到“小屋 2”的 8 个。

我正在尝试使用以下代码来预测机舱甲板:

我被 R 抛出的输出如下:

当我继续摆弄这些数据时,我拼命地试图弄明白这一点,但是我想知道为什么这段代码对我不起作用。

0 投票
1 回答
10517 浏览

scala - 使用 Spark 从目录中读取多个文件

我正在尝试使用 spark 在 kaggle上解决这个问题:

输入的层次结构是这样的:

我想读取父目录“驱动程序”,对于每个子目录,我想创建一个pairRDD,键为(sub_directory,file_name),值作为文件的内容

我检查了这个链接并尝试使用

这失败并出现错误:

但是当我运行下面的代码时,它可以工作。

但我不想这样做,因为在这里我必须读取目录驱动程序并循环文件并为每个条目调用wholeTextFiles

0 投票
1 回答
1616 浏览

r - 在 shinyapps.io 上部署 R markdown 文档

我正在尝试在 shinyapp.io 服务器上部署 R markdown 文档。

我已按照此处所述的步骤进行操作。但是,步骤 8 表示存在“部署”按钮。这个按钮不见了。

作为替代方案,我尝试过:

  1. 打开一个新的 R 脚本
  2. 导航到我的 .Rmd 文件的工作目录
  3. 运行以下命令:deployApp( appName = "Titanic")

日志表明一切都正确上传。但是我的目标页面显示“未找到”。

我的问题:

  1. 为什么“部署”按钮没有显示?
  2. 为什么我的页面显示“未找到”?

您可以在下面找到我在降价文档中使用的标题。

先感谢您

0 投票
2 回答
549 浏览

r - Ggvis 条形图 - 选择颜色

我正在使用 Kaggle ' train ' 数据集。

它包含 891 行。我使用的列是~Survived。此列由因子值“0”和“1”组成。

我使用以下代码行绘制了这两个值:

结果如下所示:

在此处输入图像描述

我想将值“0”的条形图设为红色,将值“1”的条形图设为绿色。

有人可以帮我吗?

先感谢您。

0 投票
0 回答
162 浏览

python - Python 代码在 Visual Studio 2013 中与 PTVS 循环运行

我有一个简单的 Python 代码(来自 Kaggle 的数字识别练习),如果我从命令行执行它,它运行良好(我使用 Windows 8.1 64 位和 Enthought Canopy 1.4.1)。

我决定将我所有的开发迁移到 Visual Studio,所以我安装了 Python Tools for Visual Studio 2.1 以直接从 VS Community 2013 开始编码/运行。(注意:安装顺序:(1)Canopy,(2)VS2013,和(3)PTVS。)

然而,同样的代码在 VS2013 中执行时表现得非常奇怪。它一直运行到交叉验证步骤,然后开始循环代码并一遍又一遍地重新运行所有内容,有时会在其途中吐出错误消息,如下所示: PTVS_VS2013_loopOverCode_error

如您所见,一旦到达交叉验证步骤,它就会从头开始,并随机遍历代码以仅执行其中的某些部分!

有任何想法吗?