问题标签 [scikit-learn]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

25304 问题

0 投票

1 回答

2384 浏览

machine-learning - Scikits Learn：线性核 SVM 中的特征权重

我正在处理文本分类问题（情感分析）。我想知道 scikit-learn 中是否有任何选项可以为特征添加“权重”（作为重要性的衡量标准）。我检查了文档，发现SVC 的属性“coefs”，定义如下：

但是，此属性似乎是只读的。

2012-06-17T23:18:42.843

0 投票

1 回答

2008 浏览

python - 持久化 Tf-Idf 数据

我想存储 TF-IDF 矩阵，这样我就不必一直重新计算它。我正在使用 scikit-learn 的TfIdfVectorizer. 腌制或将其存储在数据库中更有效吗？

一些背景：我正在使用 k-means 聚类来提供文档推荐。由于经常添加新文档，因此我想存储文档的 TF-IDF 值，以便重新计算集群。

python machine-learning scikit-learn pickle

2012-06-19T13:50:20.950

0 投票

1 回答

1858 浏览

python - 在 scikit-learn 中为 KNN 使用除 p-norm 之外的其他成对距离度量

对于scikit-learn 的 KNN 包，可以指定sklearn.metrics.pairwise不是 p 范数或 Minkowski 距离的成对距离度量（来自包）吗？例如，我可以使用RBF 内核吗？甚至是余弦距离？

python machine-learning scikit-learn distance knn

2012-06-19T22:30:32.273

0 投票

9 回答

57487 浏览

python - 如何为 scikit-learn 分类器获取信息量最大的特征？

liblinear 和 nltk 等机器学习包中的分类器提供了一种方法show_most_informative_features()，这对调试功能非常有帮助：

我的问题是是否为 scikit-learn 中的分类器实现了类似的功能。我搜索了文档，但找不到类似的东西。

如果还没有这样的功能，有人知道如何获得这些值的解决方法吗？

python machine-learning classification scikit-learn

2012-06-20T09:36:19.457

0 投票

2 回答

2696 浏览

python - 在 sklearn 中持久化数据

我正在使用 scikit-learn 来聚类文本文档。我正在使用 CountVectorizer、TfidfTransformer 和 MiniBatchKMeans 类来帮助我做到这一点。新的文本文档一直添加到系统中，这意味着我需要使用上面的类来转换文本并预测一个聚类。我的问题是：我应该如何将数据存储在磁盘上？我应该简单地腌制矢量化器、转换器和 kmeans 对象吗？我应该只保存数据吗？如果是这样，我如何将它添加回矢量化器、转换器和 kmeans 对象？

任何帮助将不胜感激

python machine-learning data-mining scikit-learn

2012-06-21T15:41:00.807

0 投票

0 回答

365 浏览

r - glmnet/scikit 学习系数矩阵大小

在 scikit learn 中coef_，逻辑回归模型的系数是一个维度为 [n_classes-1, n_features] 的数组。

在glmnet系数fit$beta不是一个类似的数组。

例如：

维度xMatrix- 63231 X 1223（训练样本数 X 特征数）

维度yMatrix- 63231 X 1（训练样本数 X 每个样本的预期输出值）。有45个不同的类别。所以输出是其中之一。

输出系数的维度（据我了解）= 1223 X 45（特征数 X 类数）

虽然我在 scikit learn 中做对了，但结果glmnet不同

这是我的glmnet代码：

为什么我得到 1223 X 86 而不是 1223 X 45？

r scikit-learn glmnet

2012-06-25T15:41:10.973

0 投票

1 回答

7046 浏览

scikit-learn - Scikit-Learn 逻辑回归内存错误

我正在尝试使用 sklearn 0.11 的 LogisticRegression 对象来拟合具有大约 80,000 个特征的 200,000 个观察值的模型。目标是将短文本描述分类为 800 个类别中的 1 个。

当我尝试拟合分类器时，pythonw.exe 给了我：

应用程序错误“...处的指令引用了 0x00000000 处的内存”。内存无法写入”。

这些特征非常稀疏，每次观察大约 10 个，并且是二进制的（1 或 0），所以通过我的信封计算，我的 4 GB RAM 应该能够处理内存需求，但这似乎并不就是这样。只有当我使用较少的观察和/或较少的特征时，这些模型才适合。

如果有的话，我想使用更多的观察和特征。我天真的理解是，在幕后运行的 liblinear 库能够支持这一点。关于如何挤进更多观察的任何想法？

我的代码如下所示：

我传递给分析器的 features() 函数只返回一个字符串列表，指示在每个观察中检测到的特征。

我正在使用 Python 2.7、sklearn 0.11、具有 4 GB RAM 的 Windows XP。

scikit-learn

2012-06-25T18:47:46.747

0 投票

2 回答

22526 浏览

python - Scikit-Learn的SVM类中的nu参数是什么意思？

我遵循http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html#example-svm-plot-oneclass-py中显示的示例，其中一类 SVM 用于异常检测。现在，这可能是 scikit-learn 独有的符号，但我找不到如何使用赋予 OneClassSVM 构造函数的参数 nu 的解释。

在http://scikit-learn.org/stable/modules/svm.html#nusvc中，声明参数 nu 是参数 C 的重新参数化（这是我熟悉的正则化参数） - 但没有't 说明如何执行重新参数化。

公式和直觉都将不胜感激。

谢谢！

python machine-learning scikit-learn

2012-06-27T16:30:55.160

0 投票

2 回答

2161 浏览

python - 执行 scikit-learn K-means 示例时出错

我正在尝试从 scikit-learn 官方网站运行一个 scikit-learn K-means 示例：http: //scikit-learn.org/dev/auto_examples/cluster/plot_cluster_iris.html#example-cluster-plot-cluster-iris -py

我安装了所有库（例如，scipy、numpy、pylab）。但是，在执行代码时，我收到如下错误消息：

它与 scikit-learn 版本有关吗？我正在使用版本。MAC OS X Lion 上的 0.11。

python scikit-learn

2012-06-27T17:51:53.540

0 投票

1 回答

5885 浏览

python - 如何从 scikit-learn KMeans 中获取聚类中心的文本？

我有一个我用来适应的字符串列表sklearn.cluster.KMeans：

现在我想以原始字符串表示形式获得集群中心。我知道km.cluster_centers_但无法弄清楚如何获得docs.

python machine-learning k-means scikit-learn

2012-07-05T13:18:16.213

1 2 3 4 5 6 7 8 9 10

问题标签 [scikit-learn]

Reference