“scikit-learn”的相关标签问题

0 投票

3 回答

14672 浏览

python - 如何让 SVM 很好地处理 scikit-learn 中的缺失数据？

我正在使用 scikit-learn 进行一些数据分析，并且我的数据集有一些缺失值（用表示NA）。genfromtxt我用with加载数据dtype='f8'并开始训练我的分类器。

RandomForestClassifier和对象上的分类很好GradientBoostingClassifier，但使用SVCfromsklearn.svm会导致以下错误：

是什么赋予了？我怎样才能让 SVM 很好地处理丢失的数据？请记住，丢失的数据适用于随机森林和其他分类器。

2012-07-11T21:26:25.270

0 投票

3 回答

61850 浏览

python - 无法导入 Scikit-Learn

我试图在我的 Linux Mint 12 上安装 scikit-learn 但失败了。我从http://pypi.python.org/pypi/scikit-learn/下载了这个包并安装了

然后我将目录更改为 home 并启动 python2.7 shell。在导入 sklearn 时，我得到：

我认为问题出在 scipy 的空间上。这是因为当我这样做时

我得到了与 Scikit-learn 相同的错误。

请帮忙。谢谢你。

编辑：新错误。

python importerror scikit-learn

2012-07-13T05:07:03.123

0 投票

2 回答

5885 浏览

python - 来自 Scikit-Learn 的 K 均值的失真函数

在进行 K 意味着通过 Scikit-Learn 进行聚类时，要获得失真函数（每个点到其中心的距离之和），一种简单的方法是获取中心 ( k_means.cluster_centers_) 并总结每个点的距离。

只是想知道是否有更快的方法？（就程序员时间而言）类似于直接函数调用之类的东西。

python k-means scikit-learn

2012-07-17T19:30:39.870

0 投票

3 回答

5857 浏览

numpy - 解决有关 numpy 和 sklearn 的 PyDev 未解决的导入

我几乎可以找到解决这些未解决导入的所有问题。这是我要导入的内容：

在运行 PyDev 的 Mac OS X Lion 上的 eclipse 中，出现以下错误；

请注意，这是用于设置Kaggle。

我没有得到的是，当我在终端中输入以下命令时，一切似乎都很好（我没有看到任何可见的错误）：

如果您知道可能的解决方案，请尝试详细说明。我是 Mac 和 PyDev 的新手

numpy scipy scikit-learn pydev kaggle

2012-07-21T18:29:03.813

0 投票

6 回答

10780 浏览

python - 使用 scikit-learn 的 Web 应用程序

我在本地训练了一个sklearn分类器，我必须创建一个简单的 Web 应用程序来演示它的使用。我完全是 web 应用程序开发的菜鸟，我不想浪费时间使用不支持我正在使用的模块的框架创建 web 应用程序。

你认为什么是完成这项任务的好方法？
我应该使用什么 Web 应用程序开发框架（如果有）？
我是否必须深入研究诸如等之类的东西Heroku，django或者对于简单的科学演示是否有更简单快捷的解决方案？

我的想法是使用我训练的分类器，在服务器上对其进行腌制并取消腌制，然后classify从服务器上运行，但我不知道从哪里开始。

python web-applications scikit-learn

2012-07-22T12:55:58.760

0 投票

6 回答

3311 浏览

python - 如何在 heroku cedar 上安装 scikit-learn？

我已经使用此答案中描述的方法成功安装了 numpy 和 scipy 。然后我想添加 scikit-learn，所以一开始我尝试添加scikit-learn==0.11到 requirements.txt，当推送到 heroku 时，我收到一条错误消息：

所以我已经添加到LD_LIBRARY_PATH我拥有的路径中，liblapack.so.3gf但后来我得到了这个：

我相信heroku没有fortran编译器，但也许我错了。我该如何解决这个问题？

python heroku scikit-learn

2012-07-24T17:07:10.763

0 投票

1 回答

2077 浏览

python - 在scikit learn中，如何处理数值和标称值混合的数据？

我知道 scikit-learn 中的计算是基于 NumPy 的，所以一切都是矩阵或数组。

这个包如何处理混合数据（数值和标称值）？

例如，产品可能具有属性“颜色”和“价格”，其中颜色是标称的，价格是数字的。我注意到有一个名为“DictVectorizer”的模型来计算名义数据。例如，两种产品是：

'DictVectorizer' 的结果可能是：

如果属性“颜色”有很多不同的值，则矩阵将非常稀疏。而长特征会降低一些算法的性能，比如决策树。

有没有什么方法可以使用标称值而不需要创建虚拟代码？

python machine-learning scikit-learn data-mining mixed

2012-07-27T15:26:39.837

0 投票

1 回答

9326 浏览

memory - Scikit 和 Pandas：拟合大数据

如何使用 scikit-learn 在大型 csv 数据（~75MB）上训练模型而不会遇到内存问题？

我使用 IPython notebook 作为编程环境，使用 pandas+sklearn 包来分析来自 kaggle 的数字识别器教程的数据。

数据可在网页上找到，链接到我的代码，这是错误消息：

KNeighborsClassifier用于预测。

问题：

使用 read_csv 函数加载大型数据集时发生“MemoryError”。为了暂时绕过这个问题，我必须重新启动内核，然后 read_csv 函数成功加载文件，但是当我再次运行相同的单元格时会出现同样的错误。

当read_csv函数成功加载文件时，对进行更改后dataframe，我可以将特征和标签传递给 KNeighborsClassifier 的 fit() 函数。此时会出现类似的内存错误。

我尝试了以下方法：

逐块迭代 CSV 文件，并相应地拟合数据，但问题是每次数据块的预测模型都会被覆盖。

您认为我可以做些什么来成功训练我的模型而不会遇到内存问题？

memory pandas machine-learning scikit-learn classification

ji.

2012-07-29T06:11:30.140

0 投票

3 回答

18994 浏览

python - 具有频率的 Ngram 的 Python 列表

我需要从文本中获取最流行的 ngram。Ngrams 长度必须为 1 到 5 个单词。

我知道如何获得二元组和三元组。例如：

但是，我发现 scikit-learn 可以获得不同长度的 ngram。例如，我可以获得长度从 1 到 5 的 ngram。

但是 WordNgramAnalyzer 现在已被弃用。我的问题是：如何从我的文本中获得 N 个最佳单词搭配，搭配长度从 1 到 5。我还需要获取此搭配/ngrams 的 FreqList。

我可以用 nltk/scikit 做到这一点吗？我需要从一个文本中获取不同长度的 ngram 组合吗？

例如，使用 NLTK 二元组和三元组，其中我的三元组包括我的位元，或者我的三元组是更大的 4 元组的一部分。例如：

位图：你好，我的三字：你好，我的名字

我知道如何从三元组中排除二元组，但我需要更好的解决方案。

python nltk scikit-learn

2012-08-01T16:29:20.090

0 投票

2 回答

3907 浏览

csv - 将分类数据从 CSV 导入 scikit-learn

我想从 CSV 文件中导入数据以在 scikit-learn 中使用。它混合了数字数据分类数据，例如

我需要将此表示转换为纯数字表示，其中分类数据点被转换为多个二进制列，例如

是否有任何实用程序可以为我执行此操作，或者有一种简单的方法来遍历数据并获取此表示？

csv scikit-learn

2012-08-01T22:40:54.043

问题标签 [scikit-learn]

Reference