问题标签 [scikit-learn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何让 SVM 很好地处理 scikit-learn 中的缺失数据?
我正在使用 scikit-learn 进行一些数据分析,并且我的数据集有一些缺失值(用 表示NA
)。genfromtxt
我用with加载数据dtype='f8'
并开始训练我的分类器。
RandomForestClassifier
和对象上的分类很好GradientBoostingClassifier
,但使用SVC
fromsklearn.svm
会导致以下错误:
是什么赋予了?我怎样才能让 SVM 很好地处理丢失的数据?请记住,丢失的数据适用于随机森林和其他分类器。
python - 无法导入 Scikit-Learn
我试图在我的 Linux Mint 12 上安装 scikit-learn 但失败了。我从http://pypi.python.org/pypi/scikit-learn/下载了这个包并安装了
然后我将目录更改为 home 并启动 python2.7 shell。在导入 sklearn 时,我得到:
我认为问题出在 scipy 的空间上。这是因为当我这样做时
我得到了与 Scikit-learn 相同的错误。
请帮忙。谢谢你。
编辑:新错误。
python - 来自 Scikit-Learn 的 K 均值的失真函数
在进行 K 意味着通过 Scikit-Learn 进行聚类时,要获得失真函数(每个点到其中心的距离之和),一种简单的方法是获取中心 ( k_means.cluster_centers_
) 并总结每个点的距离。
只是想知道是否有更快的方法?(就程序员时间而言)类似于直接函数调用之类的东西。
numpy - 解决有关 numpy 和 sklearn 的 PyDev 未解决的导入
我几乎可以找到解决这些未解决导入的所有问题。这是我要导入的内容:
在运行 PyDev 的 Mac OS X Lion 上的 eclipse 中,出现以下错误;
请注意,这是用于设置Kaggle。
我没有得到的是,当我在终端中输入以下命令时,一切似乎都很好(我没有看到任何可见的错误):
如果您知道可能的解决方案,请尝试详细说明。我是 Mac 和 PyDev 的新手
python - 使用 scikit-learn 的 Web 应用程序
我在本地训练了一个sklearn分类器,我必须创建一个简单的 Web 应用程序来演示它的使用。我完全是 web 应用程序开发的菜鸟,我不想浪费时间使用不支持我正在使用的模块的框架创建 web 应用程序。
- 你认为什么是完成这项任务的好方法?
- 我应该使用什么 Web 应用程序开发框架(如果有)?
- 我是否必须深入研究诸如等之类的东西
Heroku
,django
或者对于简单的科学演示是否有更简单快捷的解决方案?
我的想法是使用我训练的分类器,在服务器上对其进行腌制并取消腌制,然后classify
从服务器上运行,但我不知道从哪里开始。
python - 如何在 heroku cedar 上安装 scikit-learn?
我已经使用此答案中描述的方法成功安装了 numpy 和 scipy 。然后我想添加 scikit-learn,所以一开始我尝试添加scikit-learn==0.11
到 requirements.txt,当推送到 heroku 时,我收到一条错误消息:
所以我已经添加到LD_LIBRARY_PATH
我拥有的路径中,liblapack.so.3gf
但后来我得到了这个:
我相信heroku没有fortran编译器,但也许我错了。我该如何解决这个问题?
python - 在scikit learn中,如何处理数值和标称值混合的数据?
我知道 scikit-learn 中的计算是基于 NumPy 的,所以一切都是矩阵或数组。
这个包如何处理混合数据(数值和标称值)?
例如,产品可能具有属性“颜色”和“价格”,其中颜色是标称的,价格是数字的。我注意到有一个名为“DictVectorizer”的模型来计算名义数据。例如,两种产品是:
'DictVectorizer' 的结果可能是:
如果属性“颜色”有很多不同的值,则矩阵将非常稀疏。而长特征会降低一些算法的性能,比如决策树。
有没有什么方法可以使用标称值而不需要创建虚拟代码?
memory - Scikit 和 Pandas:拟合大数据
如何使用 scikit-learn 在大型 csv 数据(~75MB)上训练模型而不会遇到内存问题?
我使用 IPython notebook 作为编程环境,使用 pandas+sklearn 包来分析来自 kaggle 的数字识别器教程的数据。
KNeighborsClassifier
用于预测。
问题:
使用 read_csv 函数加载大型数据集时发生“MemoryError”。为了暂时绕过这个问题,我必须重新启动内核,然后 read_csv 函数成功加载文件,但是当我再次运行相同的单元格时会出现同样的错误。
当read_csv
函数成功加载文件时,对 进行更改后dataframe
,我可以将特征和标签传递给 KNeighborsClassifier 的 fit() 函数。此时会出现类似的内存错误。
我尝试了以下方法:
逐块迭代 CSV 文件,并相应地拟合数据,但问题是每次数据块的预测模型都会被覆盖。
您认为我可以做些什么来成功训练我的模型而不会遇到内存问题?
python - 具有频率的 Ngram 的 Python 列表
我需要从文本中获取最流行的 ngram。Ngrams 长度必须为 1 到 5 个单词。
我知道如何获得二元组和三元组。例如:
但是,我发现 scikit-learn 可以获得不同长度的 ngram。例如,我可以获得长度从 1 到 5 的 ngram。
但是 WordNgramAnalyzer 现在已被弃用。我的问题是:如何从我的文本中获得 N 个最佳单词搭配,搭配长度从 1 到 5。我还需要获取此搭配/ngrams 的 FreqList。
我可以用 nltk/scikit 做到这一点吗?我需要从一个文本中获取不同长度的 ngram 组合吗?
例如,使用 NLTK 二元组和三元组,其中我的三元组包括我的位元,或者我的三元组是更大的 4 元组的一部分。例如:
位图:你好,我的三字: 你好,我的名字
我知道如何从三元组中排除二元组,但我需要更好的解决方案。
csv - 将分类数据从 CSV 导入 scikit-learn
我想从 CSV 文件中导入数据以在 scikit-learn 中使用。它混合了数字数据分类数据,例如
我需要将此表示转换为纯数字表示,其中分类数据点被转换为多个二进制列,例如
是否有任何实用程序可以为我执行此操作,或者有一种简单的方法来遍历数据并获取此表示?