问题标签 [scikit-learn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 python 中使用 BernoulliNB(朴素贝叶斯分类器)scikit-learn 的简单示例 - 无法解释分类
使用 scikit-learn 0.10
为什么以下琐碎的代码片段:
打印出“1”的答案?在 [0,0,0,0,0] => 2 上训练模型后,我期待“2”作为答案。
为什么用
给出不同的“2”类作为答案(正确的)?这不就是一个阶级标签吗?
有人可以对此有所了解吗?
pca - scikit-learning 如何对 libsvm 格式的稀疏数据执行 PCA?
我正在使用 scikit-learning 做一些降维任务。我的训练/测试数据采用 libsvm 格式。它是一个有 50 万列的大型稀疏矩阵。
我使用 load_svmlight_file 函数加载数据,并通过使用 SparsePCA,scikit-learning 抛出输入数据错误的异常。
如何解决?
python - TF-IDF 简单使用 - NLTK/Scikit 学习
好的,所以我有点困惑。然而,这应该是一个简单直接的问题。
在针对整个语料库计算文档的 TF-IDF 矩阵后,我得到了与此非常相似的结果:
如何使用此结果来获取与搜索查询最相似的文档?基本上我正在尝试为维基百科重新创建一个搜索栏。基于搜索查询,我想从 Wikipedia 返回最相关的文章。在这种情况下,有 6 篇文章(行),搜索查询包含 3 个词(列)。
我是将列中的所有结果相加还是将所有行相加?较大的值是最相关的还是最低的值是最相关的?
python - Python 3x 的最佳机器学习包?
看到 scikit-learn 不支持 Python 3,我很沮丧……是否有任何人可以为 Python 3 推荐的类似包?
python - 用于搜索查询的 TF*IDF
好的,所以我一直在关注 TF*IDF 上的这两个帖子,但有点困惑:http ://css.dzone.com/articles/machine-learning-text-feature
基本上,我想创建一个搜索查询,其中包含对多个文档的搜索。我想使用 scikit-learn 工具包以及 Python 的 NLTK 库
问题是我看不到这两个 TF*IDF 向量来自哪里。我需要一个搜索查询和多个文档来搜索。我想我会针对每个查询计算每个文档的 TF*IDF 分数,并找到它们之间的余弦相似度,然后通过按降序对分数进行排序来对它们进行排名。但是,代码似乎没有提出正确的向量。
每当我将查询减少到只有一次搜索时,它就会返回一个巨大的 0 列表,这真的很奇怪。
这是代码:
python - 导入错误:尝试导入 Python 模块时 Windows 7 上缺少 DLL
细节:
Python 3.2(32 位安装)Windows 7 64 位
导致错误的代码:
错误:
我已经尝试了其他缺少的 DLL 线程中提出的一些解决方案,但没有成功......
python - Python:UnicodeDecodeError:'utf8'编解码器无法解码字节
我正在将一堆 RTF 文件读入 python 字符串。在某些文本上,我收到此错误:
我试过了:
- 将文件的文本复制并粘贴到新文件中
- 将 rtf 文件保存为 txt 文件
- 在 Notepad++ 中打开 txt 文件并选择“转换为 utf-8”并将编码设置为 utf-8
- 使用 Microsoft Word 打开文件并将其另存为新文件
没有任何效果。有任何想法吗?
它可能不相关,但这是您想知道的代码:
python - 在 iPython 中序列化我的 scikit-learn (sklearn) 网格搜索分类器时出现问题
我在iPython中从下面运行了网格搜索分类器:
http://scikit-learn.org/dev/auto_examples/grid_search_digits.html
然后尝试通过酸洗对其进行序列化,但收到以下回溯:
有解决办法吗?
我正在使用 iPython 和 sklearn 的最新测试版。
谢谢 :)
python - 是否可以在 scikit learn 中使用复数作为目标标签?
我正在尝试使用 sklearn 来预测代表旋转的变量。由于在旋转极端情况下从 -pi 到 pi 的不幸跳跃,我认为更好的方法是使用复数作为目标。这样,从 1+0.01j 到 1-0.01j 的错误就不会那么具有破坏性了。
我找不到任何描述 sklearn 是否支持复数作为分类器目标的文档。从理论上讲,距离度量应该可以正常工作,因此它至少应该适用于一些回归算法。
谁能建议我如何让回归算法以复数为目标进行操作?
python - PyDev 使用 sklearn 无法解析导入
我在 Mountain Lion 上的 Eclipse 4.2 中运行 PyDev。我安装了SciPy Superpack,并且可以在 Python 解释器和 IPython 中使用所有的包——包括 Scikit-learn 和 MatPlotLib。但是,当我尝试在 PyDev 中导入它们时,出现“未解决的导入”错误。
我从 Python.org 安装了 Python 2.7.3,并验证 PyDev 指向正确的解释器。我还尝试将 sklearn 和 matplotlib 目录(通过 from 的路径验证sklearn.__file__
)添加到 PyDev 设置中的 System PYTHONPATH。这并没有解决问题。
知道我还应该尝试什么吗?