问题标签 [scikit-learn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
11668 浏览

python - 在 python 中使用 BernoulliNB(朴素贝叶斯分类器)scikit-learn 的简单示例 - 无法解释分类

使用 scikit-learn 0.10

为什么以下琐碎的代码片段:

打印出“1”的答案?在 [0,0,0,0,0] => 2 上训练模型后,我期待“2”作为答案。

为什么用

给出不同的“2”类作为答案(正确的)?这不就是一个阶级标签吗?

有人可以对此有所了解吗?

0 投票
1 回答
3960 浏览

pca - scikit-learning 如何对 libsvm 格式的稀疏数据执行 PCA?

我正在使用 scikit-learning 做一些降维任务。我的训练/测试数据采用 libsvm 格式。它是一个有 50 万列的大型稀疏矩阵。

我使用 load_svmlight_file 函数加载数据,并通过使用 SparsePCA,scikit-learning 抛出输入数据错误的异常。

如何解决?

0 投票
1 回答
4450 浏览

python - TF-IDF 简单使用 - NLTK/Scikit 学习

好的,所以我有点困惑。然而,这应该是一个简单直接的问题。

在针对整个语料库计算文档的 TF-IDF 矩阵后,我得到了与此非常相似的结果:

如何使用此结果来获取与搜索查询最相似的文档?基本上我正在尝试为维基百科重新创建一个搜索栏。基于搜索查询,我想从 Wikipedia 返回最相关的文章。在这种情况下,有 6 篇文章(行),搜索查询包含 3 个词(列)。

我是将列中的所有结果相加还是将所有行相加?较大的值是最相关的还是最低的值是最相关的?

0 投票
3 回答
3316 浏览

python - Python 3x 的最佳机器学习包?

看到 scikit-learn 不支持 Python 3,我很沮丧……是否有任何人可以为 Python 3 推荐的类似包?

0 投票
1 回答
8627 浏览

python - 用于搜索查询的 TF*IDF

好的,所以我一直在关注 TF*IDF 上的这两个帖子,但有点困惑:http ://css.dzone.com/articles/machine-learning-text-feature

基本上,我想创建一个搜索查询,其中包含对多个文档的搜索。我想使用 scikit-learn 工具包以及 Python 的 NLTK 库

问题是我看不到这两个 TF*IDF 向量来自哪里。我需要一个搜索查询和多个文档来搜索。我想我会针对每个查询计算每个文档的 TF*IDF 分数,并找到它们之间的余弦相似度,然后通过按降序对分数进行排序来对它们进行排名。但是,代码似乎没有提出正确的向量。

每当我将查询减少到只有一次搜索时,它就会返回一个巨大的 0 列表,这真的很奇怪。

这是代码:

0 投票
4 回答
7471 浏览

python - 导入错误:尝试导入 Python 模块时 Windows 7 上缺少 DLL

细节:

Python 3.2(32 位安装)Windows 7 64 位

导致错误的代码:

错误:

我已经尝试了其他缺少的 DLL 线程中提出的一些解决方案,但没有成功......

0 投票
4 回答
42707 浏览

python - Python:UnicodeDecodeError:'utf8'编解码器无法解码字节

我正在将一堆 RTF 文件读入 python 字符串。在某些文本上,我收到此错误:

我试过了:

  1. 将文件的文本复制并粘贴到新文件中
  2. 将 rtf 文件保存为 txt 文件
  3. 在 Notepad++ 中打开 txt 文件并选择“转换为 utf-8”并将编码设置为 utf-8
  4. 使用 Microsoft Word 打开文件并将其另存为新文件

没有任何效果。有任何想法吗?

它可能不相关,但这是您想知道的代码:

0 投票
1 回答
1261 浏览

python - 在 iPython 中序列化我的 scikit-learn (sklearn) 网格搜索分类器时出现问题

我在iPython中从下面运行了网格搜索分类器:

http://scikit-learn.org/dev/auto_examples/grid_search_digits.html

然后尝试通过酸洗对其进行序列化,但收到以下回溯:

有解决办法吗?

我正在使用 iPython 和 sklearn 的最新测试版。

谢谢 :)

0 投票
3 回答
2322 浏览

python - 是否可以在 scikit learn 中使用复数作为目标标签?

我正在尝试使用 sklearn 来预测代表旋转的变量。由于在旋转极端情况下从 -pi 到 pi 的不幸跳跃,我认为更好的方法是使用复数作为目标。这样,从 1+0.01j 到 1-0.01j 的错误就不会那么具有破坏性了。

我找不到任何描述 sklearn 是否支持复数作为分类器目标的文档。从理论上讲,距离度量应该可以正常工作,因此它至少应该适用于一些回归算法。

谁能建议我如何让回归算法以复数为目标进行操作?

0 投票
1 回答
4364 浏览

python - PyDev 使用 sklearn 无法解析导入

我在 Mountain Lion 上的 Eclipse 4.2 中运行 PyDev。我安装了SciPy Superpack,并且可以在 Python 解释器和 IPython 中使用所有的包——包括 Scikit-learn 和 MatPlotLib。但是,当我尝试在 PyDev 中导入它们时,出现“未解决的导入”错误。

我从 Python.org 安装了 Python 2.7.3,并验证 PyDev 指向正确的解释器。我还尝试将 sklearn 和 matplotlib 目录(通过 from 的路径验证sklearn.__file__)添加到 PyDev 设置中的 System PYTHONPATH。这并没有解决问题。

知道我还应该尝试什么吗?