问题标签 [kaggle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - Evaluating estimator performance in scikit-learn
I'm using scikit-learn 0.13.1 for a contest on Kaggle. I'm using a Decision Tree classifier, and to evaluate my estimator I follow the techniques of splitting the training data via train_test_split, or doing cross validation using cross_val_score. Either technique would show that the estimator is about 90% accurate. However, when I use the estimator on actual test data, the accuracy obtained is about 30% lower. Let's assume that the training data is a good representation of the test data.
What else can I do to evaluate the accuracy of the estimator?
machine-learning - 如何参加机器学习编程竞赛
许多机器学习比赛都在 Kaggle 举行,其中给出了一个训练集和一组特征以及一个测试集,其输出标签将通过使用训练集来决定。
很明显,这里的监督学习算法,如决策树、SVM 等都是适用的。我的问题是,我应该如何开始处理这些问题,我的意思是是否从决策树或 SVM 或其他算法开始,或者是否有任何其他方法,即我将如何决定?
python - 多标签和多类数据标签的评估
是否有任何可用于多类多标签分类的评估指标?例如,我在 kaggle 参加了以下比赛,它需要 ROC AUC 作为评估指标。:http ://www.kaggle.com/c/mlsp-2013-birds
是否可以使用 sklearn 做到这一点?
java - 使用 maven 执行 mahout 程序(JAR)时出现 NoClassDefFoundError
我试图实现以下博客文章中详细讨论的数字识别器:http: //www.markhneedham.com/blog/2012/10/27/kaggle-digit-recognizer-mahout-random-forest-attempt/
执行 Java 程序时收到以下错误:
我有以下代码用于使用 Apache Mahout 实现数字识别器。
以下是我的 POM.XML 文件:
r - 将一个数据框中的列添加为另一个数据框的最后一列
我是 R 和机器学习算法的新手,并尝试使用kaggle scikit 示例进行学习。
我有以下两个数据框:
据我了解,大多数 R 工具都旨在与同一数据框中的类信息一起使用。出于这个原因,我试图将 trainLabels 作为最后一列添加到火车数据框中。
我尝试了以下代码:
但我不确定结果是我想要的:
r - 无法将学习模型应用于 R 中的测试数据
我正在使用Titanic
来自 Kaggle 的数据集,并想学习一个简单的逻辑回归模型。
我在火车和测试数据中读取了, 和train$Survived
都是train$Sex
因子。test$Survived
test$Sex
我想执行一个非常简单的逻辑回归,其中 Sex 是唯一的自变量。
对我来说似乎没问题:
问题是,我无法将此学习模型应用于测试数据。当我执行以下操作时:
我得到一个包含 891 个值的向量,它是训练集中训练示例的数量。
我似乎找不到任何有关如何正确执行此操作的信息。
任何帮助将不胜感激!
python - ValueError:sklearn.RFECV 不支持未知
我试图使用 rfecv 缩小与我的分类器真正相关的特征数量。这是我写的代码
在调用“rfecv.fit(X,Y)”时,我的代码从 metrices.py 文件中抛出错误“ValueError:不支持未知”
错误出现在sklearn.metrics.metrics
:
这是一个分类问题,目标值只有 0 或 1。数据集可以在Kaggle Competition Data找到
如果有人能指出我哪里出错了,我将不胜感激。
python - ValueError:具有稀疏矩阵的 scikit 线性回归 CV 模型中不允许负维度
我最近参加了一场 kaggle 比赛,在尝试从 scikit learn 运行线性 CV 模型时遇到了问题。我知道有关堆栈溢出的类似问题,但我看不出接受的答复与我的问题有何关系。任何帮助将不胜感激。我的代码如下:
我收到的错误总共粘贴在下面:
python - Pandas head 命令没有给出预期的结果
我无法让 pandas 功能为我工作。这是一个简单的例子。我使用以下命令将 kaggle 数据集读入数据帧:
然后我使用 head 命令询问前五个数据行:
我没有得到前五行数据,而是得到以下输出:
谁能解释为什么会这样?
我在运行 Windows Vista Home Premium Service Pack 2 的 HP Pavilion 笔记本电脑上的 IPython 窗口版本 0.13.1-1 中运行 Python 2.7.3