问题标签 [kaggle]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

945 问题

0 投票

1 回答

3081 浏览

python-2.7 - Evaluating estimator performance in scikit-learn

I'm using scikit-learn 0.13.1 for a contest on Kaggle. I'm using a Decision Tree classifier, and to evaluate my estimator I follow the techniques of splitting the training data via train_test_split, or doing cross validation using cross_val_score. Either technique would show that the estimator is about 90% accurate. However, when I use the estimator on actual test data, the accuracy obtained is about 30% lower. Let's assume that the training data is a good representation of the test data.

What else can I do to evaluate the accuracy of the estimator?

python-2.7 scikit-learn kaggle

2013-06-07T18:16:46.103

0 投票

2 回答

47098 浏览

r - 第一次在 R 中使用神经网络：获取“需要数字/复数矩阵/向量参数”

我正在尝试学习在 R 中使用神经网络。作为一个学习问题，我一直在Kaggle使用以下问题：

不用担心，这个问题是专门为人们设计的，没有任何奖励。

我从一个简单的逻辑回归开始，这对弄湿我的脚非常有用。现在我想学习使用神经网络。我的训练数据如下所示（列：行）：

我的起始 R 代码如下所示：

当我运行这行代码时，出现以下错误：

我知道问题出在我呈现输入变量的方式上，但我太新手了，无法理解我需要做些什么来纠正这个问题。任何人都可以帮忙吗？

谢谢！

r regression prediction kaggle

2013-07-03T19:57:54.137

0 投票

3 回答

1145 浏览

machine-learning - 如何参加机器学习编程竞赛

许多机器学习比赛都在 Kaggle 举行，其中给出了一个训练集和一组特征以及一个测试集，其输出标签将通过使用训练集来决定。

很明显，这里的监督学习算法，如决策树、SVM 等都是适用的。我的问题是，我应该如何开始处理这些问题，我的意思是是否从决策树或 SVM 或其他算法开始，或者是否有任何其他方法，即我将如何决定？

machine-learning supervised-learning kaggle

2013-07-18T05:36:51.830

0 投票

2 回答

1140 浏览

python - 多标签和多类数据标签的评估

是否有任何可用于多类多标签分类的评估指标？例如，我在 kaggle 参加了以下比赛，它需要 ROC AUC 作为评估指标。：http ://www.kaggle.com/c/mlsp-2013-birds

是否可以使用 sklearn 做到这一点？

python scikit-learn kaggle

2013-08-07T14:41:06.827

0 投票

1 回答

1408 浏览

java - 使用 maven 执行 mahout 程序（JAR）时出现 NoClassDefFoundError

我试图实现以下博客文章中详细讨论的数字识别器：http: //www.markhneedham.com/blog/2012/10/27/kaggle-digit-recognizer-mahout-random-forest-attempt/

执行 Java 程序时收到以下错误：

我有以下代码用于使用 Apache Mahout 实现数字识别器。

以下是我的 POM.XML 文件：

java maven noclassdeffounderror mahout kaggle

2013-08-27T09:42:42.200

0 投票

1 回答

7276 浏览

r - 将一个数据框中的列添加为另一个数据框的最后一列

我是 R 和机器学习算法的新手，并尝试使用kaggle scikit 示例进行学习。

我有以下两个数据框：

据我了解，大多数 R 工具都旨在与同一数据框中的类信息一起使用。出于这个原因，我试图将 trainLabels 作为最后一列添加到火车数据框中。

我尝试了以下代码：

但我不确定结果是我想要的：

r kaggle

2013-10-06T13:06:41.547

0 投票

1 回答

1961 浏览

r - 无法将学习模型应用于 R 中的测试数据

我正在使用Titanic来自 Kaggle 的数据集，并想学习一个简单的逻辑回归模型。

我在火车和测试数据中读取了, 和train$Survived都是train$Sex因子。test$Survivedtest$Sex

我想执行一个非常简单的逻辑回归，其中 Sex 是唯一的自变量。

对我来说似乎没问题：

问题是，我无法将此学习模型应用于测试数据。当我执行以下操作时：

我得到一个包含 891 个值的向量，它是训练集中训练示例的数量。

我似乎找不到任何有关如何正确执行此操作的信息。

任何帮助将不胜感激！

r machine-learning logistic-regression prediction kaggle

2013-10-07T14:44:26.120

0 投票

1 回答

17890 浏览

python - ValueError：sklearn.RFECV 不支持未知

我试图使用 rfecv 缩小与我的分类器真正相关的特征数量。这是我写的代码

在调用“rfecv.fit(X,Y)”时，我的代码从 metrices.py 文件中抛出错误“ValueError：不支持未知”

错误出现在sklearn.metrics.metrics：

这是一个分类问题，目标值只有 0 或 1。数据集可以在Kaggle Competition Data找到

如果有人能指出我哪里出错了，我将不胜感激。

python numpy scikit-learn kaggle

2013-11-27T05:48:52.140

0 投票

1 回答

4251 浏览

python - ValueError：具有稀疏矩阵的 scikit 线性回归 CV 模型中不允许负维度

我最近参加了一场 kaggle 比赛，在尝试从 scikit learn 运行线性 CV 模型时遇到了问题。我知道有关堆栈溢出的类似问题，但我看不出接受的答复与我的问题有何关系。任何帮助将不胜感激。我的代码如下：

我收到的错误总共粘贴在下面：

python scikit-learn linear-regression kaggle

2013-12-02T03:33:11.057

0 投票

2 回答

4099 浏览

python - Pandas head 命令没有给出预期的结果

我无法让 pandas 功能为我工作。这是一个简单的例子。我使用以下命令将 kaggle 数据集读入数据帧：

然后我使用 head 命令询问前五个数据行：

我没有得到前五行数据，而是得到以下输出：

谁能解释为什么会这样？

我在运行 Windows Vista Home Premium Service Pack 2 的 HP Pavilion 笔记本电脑上的 IPython 窗口版本 0.13.1-1 中运行 Python 2.7.3

python pandas kaggle

2013-12-30T19:51:54.960

1 2 3 4 5 6 7 8 9 10