问题标签 [scikits]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1985 浏览

python - 在 scikit-learn 中向文本向量器添加新单词

Scikit-learn CountVectorizer for bag-of-words 方法目前提供两个子选项:(a) 使用自定义词汇表 (b) 如果自定义词汇表不可用,则它会根据语料库中存在的所有单词创建词汇表。

我的问题:我们可以指定一个自定义词汇表开始,但确保在处理语料库时看到新词时更新它。我假设这是可行的,因为矩阵是通过稀疏表示存储的。

有用性:在必须向训练数据中添加其他文档且不必从头开始的情况下,这将有所帮助。

0 投票
2 回答
2420 浏览

scipy - tf idf 上的截断 svd 给出值错误数组太大

我正在尝试将 TruncatedSVD.fit_transform() 应用于 scikit-learn 中 TfidfVectorizer 给出的稀疏矩阵,它给出:

我可以使用哪些其他方法或降维。

0 投票
1 回答
878 浏览

numpy - 文本的 Scikit 朴素贝叶斯分类

我正在尝试将 scikit 用于 Naive Basyes 分类。我有几个问题(我也是 scikit 的新手)

1) Scikit 算法希望输入为 numpy 数组,标签为数组。在文本分类的情况下,我应该通过维护词汇中的单词散列和与之关联的唯一 id 来将我的每个单词映射到一个数字 (id) 吗?这是 scikit 的标准做法吗?

2)如果将相同的文本分配给多个班级,我应该如何进行。一种明显的方法是为每个相关标签复制每个训练示例。存在更好的表示吗?

3) 同样对于测试数据,我将如何获得与测试相关的多个类?

我使用http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html 作为我的基础。

0 投票
3 回答
17892 浏览

scikit-learn - 如何从我自己的数据中创建 scikit-learn 中的 sklearn.datasets.base.Bunch 对象?

在大多数 Scikit-learn 算法中,数据必须作为 Bunch 对象加载。对于教程中的许多示例 load_files() 或其他函数用于填充 Bunch 对象。像 load_files() 这样的函数期望数据以某种格式存在,但我有以不同格式存储的数据,即每个字段都有字符串的 CSV 文件。

如何解析这个并以 Bunch 对象格式加载数据?

0 投票
1 回答
2435 浏览

scikit-learn - Scikit-learn MultinomialNB 中的内存不足错误

为了在大约 400 MB 的文本数据中运行 NB 分类器,我需要使用矢量化器。

但它给出了内存不足的错误。我正在使用 Linux64 一个 python 64 位版本。人们如何通过 Scikit 中的矢量化过程处理大型数据集(文本)

已编辑(ogrisel):我将标题从“Scikit Vectorizer 中的内存不足错误”更改为“Scikit-learn MultinomialNB 中的内存不足错误”,以使其更能描述实际问题。

0 投票
1 回答
1166 浏览

python - 在线性时间内合并图像区域(bbox)

我有一些图像的一组区域(边界框),例如python代码:

我想做的是合并重叠的区域或 bbox 边缘之间的距离小于X. 天真的方法是检查所有区域之间的距离,这具有 O(n 2 ) 复杂性。我可以写一些更聪明的东西,但我的印象是这种算法已经存在,我不想重新发明轮子。任何帮助表示赞赏。

0 投票
2 回答
809 浏览

python - 如何获得 GridSearchCV 部分完成的结果?

我已经开始在相当广泛的范围内对 SVM 参数进行网格搜索。

大部分搜索空间已经计算出来,现在我得到了最后一个过程,它已经持续了 100 个小时。

我想看看已经计算好的结果。有什么办法吗?提前致谢!

0 投票
1 回答
1743 浏览

python - scikit Python 的安装错误

当我尝试运行设置时,从 Windows 命令提示符出现此错误:

有谁知道我可以做些什么来安装 scikit?谢谢!

0 投票
1 回答
1619 浏览

python - 用新数据更新 SVM 分类器

我使用 Python 训练了一个 SVM 分类器

这对预测很有用。现在我想更新分类器参数。很少有点改变分类(从正数到零),并且添加了一些。很少意味着 10000 中的 50 或更多。

我认为提示 SVM 分类器从先前的参数开始是明智的,这应该非常接近最佳解决方案。我有一个问题,有时分类器随机很差(我想拟合失败)。有没有办法在 scikit-learn 或 libsvm 中这样做?

0 投票
1 回答
1512 浏览

python-3.x - 访问 scikit 数据集中的列

我将 scikit 库中的内置 boston 数据集加载为:

from sklearn.datasets import load_boston bdata = load_boston()

我想提取第一列中的所有值,称为 CRIM。我写了这样一行: plt.scatter(bdata.CRIM,bdata.target,color='blue')

但是我收到一个错误,因为“AttributeError:'Bunch'对象没有属性'CRIM'”

如何访问标题为 'CRIM' 的列的元素?