问题标签 [scikits]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 Python 中将整数转换为日期时间
我的代码:
如何将start_val
和转换end_val
为datetime
对象?
python - 有没有办法使用用户定义的距离度量来选择 scikits 学习中的 k 个最近邻居?
我必须使用余弦相似度度量和其他一些用户定义的度量来为一组向量使用 K 最近邻。如何使用 scikits 学习来实现这一目标?我找到sklearn.neighbors.KNeighborsClassifier
了,但我无法找出用户定义指标的任何选项。我目前使用的是最新版本的scikits learn 0.11。
python - Scikit LDA 在 RFECV 中的使用
我正在使用递归特征排名函数 i scikit-learn (http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html#sklearn.feature_selection.RFECV)。但是,我想使用 LDA 分类器作为估计器。我有这个代码:
当我执行此代码时,出现错误。如果我用 RFE 执行相同的代码,就可以了。或者如果我使用 SVR 分类器,它可以正常工作。我的问题是,当我调用 LDA() 方法时,我是否得到了一个分类器。RFECV 将使用“估计器”中的分类器对特征进行排名。LDA有什么问题?
python - python、scikits-learn:哪些学习方法支持稀疏特征向量?
我在尝试对 30.000 个文本的数据集执行 KernelPCA 时遇到内存错误。RandomizedPCA 工作正常。我认为正在发生的事情是 RandomizedPCA 与稀疏数组一起使用,而 KernelPCA 则不行。
是否有人列出了当前在 scikits-learn 中通过稀疏数组支持实现的学习方法?
python - 使用 sklearn 找出错误率
我想在 python 中使用 svm 分类器找出错误率,我采取的方法是:
但是,这种方法行不通。sklearn 的 score 函数也给出了平均准确率......但是,我不能使用它,因为我想完成交叉验证,然后找到错误率。请在 sklearn 中建议一个合适的函数来找出错误率。
python - scikit learn:创建自定义 CountVectorizer 和 ChiSquare 的问题
我有以下代码(基于此处的示例),但它不起作用:
调用时出现以下错误fit_transform
:
根据文档, CountVectorizer 应该像这样创建:vectorizer = CountVectorizer(tokenizer=my_tokenizer)
. 但是,如果我这样做,我会收到以下错误:"got an unexpected keyword argument 'tokenizer'"
.
我实际的 scikit-learn 版本是 0.10。
python - Nx3 列数据到 2d 矩阵用于图像处理
我试图在我从文本文件中读取的格式('x','y','value')的 Nx3 数据中找到局部最大值和计数;'x' 和 'y' 形成一个均匀间隔的网格,'x','y' 的每个组合都有一个值,它看起来像这样:
问题是我尝试使用的图像代码(链接)要求数据采用不同的二维矩阵格式进行图像处理。这是代码的相关部分:
有人可以帮助将我的数据转换为所需的“网格”格式吗?
编辑:我终于选择了熊猫,但在一般情况下我发现选择的答案更好。这就是我所做的:
在此之后data.values
以我想要的二维“图像形式”保持表格。
python - scikits learn 和 nltk:朴素贝叶斯分类器性能差异很大
我正在比较两个朴素贝叶斯分类器:一个来自 NLTK,一个来自 scikit-learn。我正在处理一个多类分类问题(3 类:正(1)、负(-1)和中性(0))。
在不执行任何特征选择(即使用所有可用特征)的情况下,使用 70,000 个实例的训练数据集(噪声标记,实例分布为 17% 正、4% 负和 78% 中性),我训练了两个分类器,第一个是 nltk.NaiveBayesClassifier,第二个是 sklearn.naive_bayes.MultinomialNB(带有fit_prior=True
)。
训练后,我在 30,000 个实例的测试集上评估了分类器,得到以下结果:
我注意到,虽然 Scikit 的分类器具有更好的整体准确度和精确度,但与 NLTK 相比,它的召回率非常低,至少就我的数据而言。考虑到它们可能(几乎)是相同的分类器,这不是很奇怪吗?
machine-learning - 如何在 sklearn 的集成分类器中使用自定义分类器?
我读到 sklearn 中的内置集成方法使用决策树作为基本分类器。是否可以改用自定义分类器?
python - Python scikits 学习 - 分离超平面方程
分离超平面的方程是W.X + b = 0
。
对于scikit-learn 中的支持向量机,分离超平面是如何得出的?a
' ' 和 ' '是什么w
意思?