问题标签 [scikit-learn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - Scikits Learn:线性核 SVM 中的特征权重
我正在处理文本分类问题(情感分析)。我想知道 scikit-learn 中是否有任何选项可以为特征添加“权重”(作为重要性的衡量标准)。我检查了文档,发现SVC 的属性“coefs”,定义如下:
但是,此属性似乎是只读的。
python - 持久化 Tf-Idf 数据
我想存储 TF-IDF 矩阵,这样我就不必一直重新计算它。我正在使用 scikit-learn 的TfIdfVectorizer
. 腌制或将其存储在数据库中更有效吗?
一些背景:我正在使用 k-means 聚类来提供文档推荐。由于经常添加新文档,因此我想存储文档的 TF-IDF 值,以便重新计算集群。
python - 在 scikit-learn 中为 KNN 使用除 p-norm 之外的其他成对距离度量
对于scikit-learn 的 KNN 包,可以指定sklearn.metrics.pairwise
不是 p 范数或 Minkowski 距离的成对距离度量(来自包)吗?例如,我可以使用RBF 内核吗?甚至是余弦距离?
python - 如何为 scikit-learn 分类器获取信息量最大的特征?
liblinear 和 nltk 等机器学习包中的分类器提供了一种方法show_most_informative_features()
,这对调试功能非常有帮助:
我的问题是是否为 scikit-learn 中的分类器实现了类似的功能。我搜索了文档,但找不到类似的东西。
如果还没有这样的功能,有人知道如何获得这些值的解决方法吗?
python - 在 sklearn 中持久化数据
我正在使用 scikit-learn 来聚类文本文档。我正在使用 CountVectorizer、TfidfTransformer 和 MiniBatchKMeans 类来帮助我做到这一点。新的文本文档一直添加到系统中,这意味着我需要使用上面的类来转换文本并预测一个聚类。我的问题是:我应该如何将数据存储在磁盘上?我应该简单地腌制矢量化器、转换器和 kmeans 对象吗?我应该只保存数据吗?如果是这样,我如何将它添加回矢量化器、转换器和 kmeans 对象?
任何帮助将不胜感激
r - glmnet/scikit 学习系数矩阵大小
在 scikit learn 中coef_
,逻辑回归模型的系数是一个维度为 [n_classes-1, n_features] 的数组。
在glmnet
系数fit$beta
不是一个类似的数组。
例如:
维度xMatrix
- 63231 X 1223(训练样本数 X 特征数)
维度yMatrix
- 63231 X 1(训练样本数 X 每个样本的预期输出值)。有45个不同的类别。所以输出是其中之一。
输出系数的维度(据我了解)= 1223 X 45(特征数 X 类数)
虽然我在 scikit learn 中做对了,但结果glmnet
不同
这是我的glmnet
代码:
为什么我得到 1223 X 86 而不是 1223 X 45?
scikit-learn - Scikit-Learn 逻辑回归内存错误
我正在尝试使用 sklearn 0.11 的 LogisticRegression 对象来拟合具有大约 80,000 个特征的 200,000 个观察值的模型。目标是将短文本描述分类为 800 个类别中的 1 个。
当我尝试拟合分类器时,pythonw.exe 给了我:
应用程序错误“...处的指令引用了 0x00000000 处的内存”。内存无法写入”。
这些特征非常稀疏,每次观察大约 10 个,并且是二进制的(1 或 0),所以通过我的信封计算,我的 4 GB RAM 应该能够处理内存需求,但这似乎并不就是这样。只有当我使用较少的观察和/或较少的特征时,这些模型才适合。
如果有的话,我想使用更多的观察和特征。我天真的理解是,在幕后运行的 liblinear 库能够支持这一点。关于如何挤进更多观察的任何想法?
我的代码如下所示:
我传递给分析器的 features() 函数只返回一个字符串列表,指示在每个观察中检测到的特征。
我正在使用 Python 2.7、sklearn 0.11、具有 4 GB RAM 的 Windows XP。
python - Scikit-Learn的SVM类中的nu参数是什么意思?
我遵循http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html#example-svm-plot-oneclass-py中显示的示例,其中一类 SVM 用于异常检测。现在,这可能是 scikit-learn 独有的符号,但我找不到如何使用赋予 OneClassSVM 构造函数的参数 nu 的解释。
在http://scikit-learn.org/stable/modules/svm.html#nusvc中,声明参数 nu 是参数 C 的重新参数化(这是我熟悉的正则化参数) - 但没有't 说明如何执行重新参数化。
公式和直觉都将不胜感激。
谢谢!
python - 执行 scikit-learn K-means 示例时出错
我正在尝试从 scikit-learn 官方网站运行一个 scikit-learn K-means 示例:http: //scikit-learn.org/dev/auto_examples/cluster/plot_cluster_iris.html#example-cluster-plot-cluster-iris -py
我安装了所有库(例如,scipy、numpy、pylab)。但是,在执行代码时,我收到如下错误消息:
它与 scikit-learn 版本有关吗?我正在使用版本。MAC OS X Lion 上的 0.11。
python - 如何从 scikit-learn KMeans 中获取聚类中心的文本?
我有一个我用来适应的字符串列表sklearn.cluster.KMeans
:
现在我想以原始字符串表示形式获得集群中心。我知道km.cluster_centers_
但无法弄清楚如何获得docs
.