问题标签 [scikit-learn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
14672 浏览

python - 如何让 SVM 很好地处理 scikit-learn 中的缺失数据?

我正在使用 scikit-learn 进行一些数据分析,并且我的数据集有一些缺失值(用 表示NA)。genfromtxt我用with加载数据dtype='f8'并开始训练我的分类器。

RandomForestClassifier和对象上的分类很好GradientBoostingClassifier,但使用SVCfromsklearn.svm会导致以下错误:

是什么赋予了?我怎样才能让 SVM 很好地处理丢失的数据?请记住,丢失的数据适用于随机森林和其他分类器。

0 投票
3 回答
61850 浏览

python - 无法导入 Scikit-Learn

我试图在我的 Linux Mint 12 上安装 scikit-learn 但失败了。我从http://pypi.python.org/pypi/scikit-learn/下载了这个包并安装了

然后我将目录更改为 home 并启动 python2.7 shell。在导入 sklearn 时,我得到:

我认为问题出在 scipy 的空间上。这是因为当我这样做时

我得到了与 Scikit-learn 相同的错误。

请帮忙。谢谢你。

编辑:新错误。

0 投票
2 回答
5885 浏览

python - 来自 Scikit-Learn 的 K 均值的失真函数

在进行 K 意味着通过 Scikit-Learn 进行聚类时,要获得失真函数(每个点到其中心的距离之和),一种简单的方法是获取中心 ( k_means.cluster_centers_) 并总结每个点的距离。

只是想知道是否有更快的方法?(就程序员时间而言)类似于直接函数调用之类的东西。

0 投票
3 回答
5857 浏览

numpy - 解决有关 numpy 和 sklearn 的 PyDev 未解决的导入

我几乎可以找到解决这些未解决导入的所有问题。这是我要导入的内容:

在运行 PyDev 的 Mac OS X Lion 上的 eclipse 中,出现以下错误;

请注意,这是用于设置Kaggle

我没有得到的是,当我在终端中输入以下命令时,一切似乎都很好(我没有看到任何可见的错误):

如果您知道可能的解决方案,请尝试详细说明。我是 Mac 和 PyDev 的新手

0 投票
6 回答
10780 浏览

python - 使用 scikit-learn 的 Web 应用程序

我在本地训练了一个sklearn分类器,我必须创建一个简单的 Web 应用程序来演示它的使用。我完全是 web 应用程序开发的菜鸟,我不想浪费时间使用不支持我正在使用的模块的框架创建 web 应用程序。

  1. 你认为什么是完成这项任务的好方法?
  2. 我应该使用什么 Web 应用程序开发框架(如果有)?
  3. 我是否必须深入研究诸如等之类的东西Herokudjango或者对于简单的科学演示是否有更简单快捷的解决方案?

我的想法是使用我训练的分类器,在服务器上对其进行腌制并取消腌制,然后classify从服务器上运行,但我不知道从哪里开始。

0 投票
6 回答
3311 浏览

python - 如何在 heroku cedar 上安装 scikit-learn?

我已经使用此答案中描述的方法成功安装了 numpy 和 scipy 。然后我想添加 scikit-learn,所以一开始我尝试添加scikit-learn==0.11到 requirements.txt,当推送到 heroku 时,我收到一条错误消息:

所以我已经添加到LD_LIBRARY_PATH我拥有的路径中,liblapack.so.3gf但后来我得到了这个:

我相信heroku没有fortran编译器,但也许我错了。我该如何解决这个问题?

0 投票
1 回答
2077 浏览

python - 在scikit learn中,如何处理数值和标称值混合的数据?

我知道 scikit-learn 中的计算是基于 NumPy 的,所以一切都是矩阵或数组。

这个包如何处理混合数据(数值和标称值)?

例如,产品可能具有属性“颜色”和“价格”,其中颜色是标称的,价格是数字的。我注意到有一个名为“DictVectorizer”的模型来计算名义数据。例如,两种产品是:

'DictVectorizer' 的结果可能是:

如果属性“颜色”有很多不同的值,则矩阵将非常稀疏。而长特征会降低一些算法的性能,比如决策树。

有没有什么方法可以使用标称值而不需要创建虚拟代码?

0 投票
1 回答
9326 浏览

memory - Scikit 和 Pandas:拟合大数据

如何使用 scikit-learn 在大型 csv 数据(~75MB)上训练模型而不会遇到内存问题?

我使用 IPython notebook 作为编程环境,使用 pandas+sklearn 包来分析来自 kaggle 的数字识别器教程的数据。

数据可在网页上找到,链接到我的代码,这是错误消息

KNeighborsClassifier用于预测。

问题:

使用 read_csv 函数加载大型数据集时发生“MemoryError”。为了暂时绕过这个问题,我必须重新启动内核,然后 read_csv 函数成功加载文件,但是当我再次运行相同的单元格时会出现同样的错误。

read_csv函数成功加载文件时,对 进行更改后dataframe,我可以将特征和标签传递给 KNeighborsClassifier 的 fit() 函数。此时会出现类似的内存错误。

我尝试了以下方法:

逐块迭代 CSV 文件,并相应地拟合数据,但问题是每次数据块的预测模型都会被覆盖。

您认为我可以做些什么来成功训练我的模型而不会遇到内存问题?

0 投票
3 回答
18994 浏览

python - 具有频率的 Ngram 的 Python 列表

我需要从文本中获取最流行的 ngram。Ngrams 长度必须为 1 到 5 个单词。

我知道如何获得二元组和三元组。例如:

但是,我发现 scikit-learn 可以获得不同长度的 ngram。例如,我可以获得长度从 1 到 5 的 ngram。

但是 WordNgramAnalyzer 现在已被弃用。我的问题是:如何从我的文本中获得 N 个最佳单词搭配,搭配长度从 1 到 5。我还需要获取此搭配/ngrams 的 FreqList。

我可以用 nltk/scikit 做到这一点吗?我需要从一个文本中获取不同长度的 ngram 组合吗?

例如,使用 NLTK 二元组和三元组,其中我的三元组包括我的位元,或者我的三元组是更大的 4 元组的一部分。例如:

位图:你好,我的三字: 你好,我的名字

我知道如何从三元组中排除二元组,但我需要更好的解决方案。

0 投票
2 回答
3907 浏览

csv - 将分类数据从 CSV 导入 scikit-learn

我想从 CSV 文件中导入数据以在 scikit-learn 中使用。它混合了数字数据分类数据,例如

我需要将此表示转换为纯数字表示,其中分类数据点被转换为多个二进制列,例如

是否有任何实用程序可以为我执行此操作,或者有一种简单的方法来遍历数据并获取此表示?