问题标签 [scikit-learn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4007 浏览

python - 带有交叉验证的 scikits 混淆矩阵

我正在使用 scikits 接口训练具有交叉验证(stratifiedKfold)的 svm 分类器。对于每个(k 个)测试集,我得到一个分类结果。我想要一个包含所有结果的混淆矩阵。Scikits 有一个混淆矩阵接口:sklearn.metrics.confusion_matrix(y_true, y_pred) 我的问题是我应该如何累积 y_true 和 y_pred 值。它们是数组(numpy)。我应该根据我的 k-fold 参数定义数组的大小吗?对于每个结果,我应该将 y_true 和 y-pred 添加到数组中????

0 投票
1 回答
2332 浏览

python - 有没有办法使用用户定义的距离度量来选择 scikits 学习中的 k 个最近邻居?

我必须使用余弦相似度度量和其他一些用户定义的度量来为一组向量使用 K 最近邻。如何使用 scikits 学习来实现这一目标?我找到sklearn.neighbors.KNeighborsClassifier了,但我无法找出用户定义指标的任何选项。我目前使用的是最新版本的scikits learn 0.11。

0 投票
1 回答
492 浏览

python - Scikit LDA 在 RFECV 中的使用

我正在使用递归特征排名函数 i scikit-learn (http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html#sklearn.feature_selection.RFECV)。但是,我想使用 LDA 分类器作为估计器。我有这个代码:

当我执行此代码时,出现错误。如果我用 RFE 执行相同的代码,就可以了。或者如果我使用 SVR 分类器,它可以正常工作。我的问题是,当我调用 LDA() 方法时,我是否得到了一个分类器。RFECV 将使用“估计器”中的分类器对特征进行排名。LDA有什么问题?

0 投票
5 回答
11174 浏览

python - 无法在 OS X 上安装 scikit-learn

我无法安装scikit-learn。我可以通过从源代码或通过 pip 构建其他软件包来安装其他软件包,而不会出现问题。对于 scikit-learn,我尝试在 GitHub 上克隆项目并通过 pip 安装但没有成功。有人可以帮忙吗?这是我的一部分pip.log

0 投票
1 回答
690 浏览

python - python、scikits-learn:哪些学习方法支持稀疏特征向量?

我在尝试对 30.000 个文本的数据集执行 KernelPCA 时遇到内存错误。RandomizedPCA 工作正常。我认为正在发生的事情是 RandomizedPCA 与稀疏数组一起使用,而 KernelPCA 则不行。

是否有人列出了当前在 scikits-learn 中通过稀疏数组支持实现的学习方法?

0 投票
3 回答
23158 浏览

python - 使用 sklearn 找出错误率

我想在 python 中使用 svm 分类器找出错误率,我采取的方法是:

但是,这种方法行不通。sklearn 的 score 函数也给出了平均准确率......但是,我不能使用它,因为我想完成交叉验证,然后找到错误率。请在 sklearn 中建议一个合适的函数来找出错误率。

0 投票
1 回答
2425 浏览

python - scikit learn:创建自定义 CountVectorizer 和 ChiSquare 的问题

我有以下代码(基于此处的示例),但它不起作用:

调用时出现以下错误fit_transform

根据文档, CountVectorizer 应该像这样创建:vectorizer = CountVectorizer(tokenizer=my_tokenizer). 但是,如果我这样做,我会收到以下错误:"got an unexpected keyword argument 'tokenizer'".

我实际的 scikit-learn 版本是 0.10。

0 投票
1 回答
2764 浏览

python - scikit learn:未选择所需数量的最佳特征(k)

我正在尝试使用卡方(scikit-learn 0.10)选择最佳功能。从总共 80 个训练文档中,我首先提取 227 个特征,然后从这 227 个特征中选择前 10 个。

结果如下。

k如果我设置为 ,它们是相似的100

为什么会这样?

*编辑:一个完整​​的输出示例,现在没有剪辑,我请求 30 并得到 32 代替:

另一个没有剪裁的例子,我请求 10 并得到 11:

0 投票
1 回答
888 浏览

machine-learning - 使用 scikit learn 预测网站上的优质内容

我有一个网站一年的数据。我想训练一种机器学习算法来根据某些变量(例如,字数、发布时间等)预测新内容的成功与否

我想获取一条新数据,输入有关它的某些特征,并获得它在网站上表现如何的概率。

此外,我想继续将未来的数据添加到训练集中,并不断训练算法以随着时间的推移变得更智能。

我的问题是:我应该如何使用 scikit-learn 来完成这项工作?

0 投票
2 回答
5176 浏览

python - scikits learn 和 nltk:朴素贝叶斯分类器性能差异很大

我正在比较两个朴素贝叶斯分类器:一个来自 NLTK,一个来自 scikit-learn。我正在处理一个多类分类问题(3 类:正(1)、负(-1)和中性(0))。

在不执行任何特征选择(即使用所有可用特征)的情况下,使用 70,000 个实例的训练数据集(噪声标记,实例分布为 17% 正、4% 负和 78% 中性),我训练了两个分类器,第一个是 nltk.NaiveBayesClassifier,第二个是 sklearn.naive_bayes.MultinomialNB(带有fit_prior=True)。

训练后,我在 30,000 个实例的测试集上评估了分类器,得到以下结果:

我注意到,虽然 Scikit 的分类器具有更好的整体准确度和精确度,但与 NLTK 相比,它的召回率非常低,至少就我的数据而言。考虑到它们可能(几乎)是相同的分类器,这不是很奇怪吗?