问题标签 [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3081 浏览

python-2.7 - Evaluating estimator performance in scikit-learn

I'm using scikit-learn 0.13.1 for a contest on Kaggle. I'm using a Decision Tree classifier, and to evaluate my estimator I follow the techniques of splitting the training data via train_test_split, or doing cross validation using cross_val_score. Either technique would show that the estimator is about 90% accurate. However, when I use the estimator on actual test data, the accuracy obtained is about 30% lower. Let's assume that the training data is a good representation of the test data.

What else can I do to evaluate the accuracy of the estimator?

0 投票
2 回答
47098 浏览

r - 第一次在 R 中使用神经网络:获取“需要数字/复数矩阵/向量参数”

我正在尝试学习在 R 中使用神经网络。作为一个学习问题,我一直在Kaggle使用以下问题

不用担心,这个问题是专门为人们设计的,没有任何奖励。

我从一个简单的逻辑回归开始,这对弄湿我的脚非常有用。现在我想学习使用神经网络。我的训练数据如下所示(列:行):

我的起始 R 代码如下所示:

当我运行这行代码时,出现以下错误:

我知道问题出在我呈现输入变量的方式上,但我太新手了,无法理解我需要做些什么来纠正这个问题。任何人都可以帮忙吗?

谢谢!

0 投票
3 回答
1145 浏览

machine-learning - 如何参加机器学习编程竞赛

许多机器学习比赛都在 Kaggle 举行,其中给出了一个训练集和一组特征以及一个测试集,其输出标签将通过使用训练集来决定。

很明显,这里的监督学习算法,如决策树、SVM 等都是适用的。我的问题是,我应该如何开始处理这些问题,我的意思是是否从决策树或 SVM 或其他算法开始,或者是否有任何其他方法,即我将如何决定?

0 投票
2 回答
1140 浏览

python - 多标签和多类数据标签的评估

是否有任何可用于多类多标签分类的评估指标?例如,我在 kaggle 参加了以下比赛,它需要 ROC AUC 作为评估指标。:http ://www.kaggle.com/c/mlsp-2013-birds

是否可以使用 sklearn 做到这一点?

0 投票
1 回答
1408 浏览

java - 使用 maven 执行 mahout 程序(JAR)时出现 NoClassDefFoundError

我试图实现以下博客文章中详细讨论的数字识别器:http: //www.markhneedham.com/blog/2012/10/27/kaggle-digit-recognizer-mahout-random-forest-attempt/

执行 Java 程序时收到以下错误:

我有以下代码用于使用 Apache Mahout 实现数字识别器。

以下是我的 POM.XML 文件:

0 投票
1 回答
7276 浏览

r - 将一个数据框中的列添加为另一个数据框的最后一列

我是 R 和机器学习算法的新手,并尝试使用kaggle scikit 示例进行学习。

我有以下两个数据框:

据我了解,大多数 R 工具都旨在与同一数据框中的类信息一起使用。出于这个原因,我试图将 trainLabels 作为最后一列添加到火车数据框中。

我尝试了以下代码:

但我不确定结果是我想要的:

0 投票
1 回答
1961 浏览

r - 无法将学习模型应用于 R 中的测试数据

我正在使用Titanic来自 Kaggle 的数据集,并想学习一个简单的逻辑回归模型。

我在火车和测试数据中读取了, 和train$Survived都是train$Sex因子。test$Survivedtest$Sex

我想执行一个非常简单的逻辑回归,其中 Sex 是唯一的自变量。

对我来说似乎没问题:

问题是,我无法将此学习模型应用于测试数据。当我执行以下操作时:

我得到一个包含 891 个值的向量,它是训练集中训练示例的数量。

我似乎找不到任何有关如何正确执行此操作的信息。

任何帮助将不胜感激!

0 投票
1 回答
17890 浏览

python - ValueError:sklearn.RFECV 不支持未知

我试图使用 rfecv 缩小与我的分类器真正相关的特征数量。这是我写的代码

在调用“rfecv.fit(X,Y)”时,我的代码从 metrices.py 文件中抛出错误“ValueError:不支持未知”

错误出现在sklearn.metrics.metrics

这是一个分类问题,目标值只有 0 或 1。数据集可以在Kaggle Competition Data找到

如果有人能指出我哪里出错了,我将不胜感激。

0 投票
1 回答
4251 浏览

python - ValueError:具有稀疏矩阵的 scikit 线性回归 CV 模型中不允许负维度

我最近参加了一场 kaggle 比赛,在尝试从 scikit learn 运行线性 CV 模型时遇到了问题。我知道有关堆栈溢出的类似问题,但我看不出接受的答复与我的问题有何关系。任何帮助将不胜感激。我的代码如下:

我收到的错误总共粘贴在下面:

0 投票
2 回答
4099 浏览

python - Pandas head 命令没有给出预期的结果

我无法让 pandas 功能为我工作。这是一个简单的例子。我使用以下命令将 kaggle 数据集读入数据帧:

然后我使用 head 命令询问前五个数据行:

我没有得到前五行数据,而是得到以下输出:

谁能解释为什么会这样?

我在运行 Windows Vista Home Premium Service Pack 2 的 HP Pavilion 笔记本电脑上的 IPython 窗口版本 0.13.1-1 中运行 Python 2.7.3