问题标签 [unsupervised-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1367 浏览

windows - 新的 Python 安装;脚本运行很慢

当前 Python 版本 2.7.10 - 我尝试从 python.org 和 Anaconda 发行版直接下载。

以前的 Python 版本是 2.7.x(不记得了)——我知道这是一个 Enthought Canopy 发行版。

我只是将 Windows 从 7 升级到 10pro。我在计算机上重新安装了所有内容以重新开始。我安装了最新版本的 Python 2.7.10。我现在正在运行一个我昨天在我的 Windows 7 操作系统上运行的脚本,现在它的运行速度非常慢,我不知道为什么。它是基于此处找到的教程中的代码的脚本:

http://pythonprogramming.net/sentiment-analysis-module-nltk-tutorial/

它加载了很多数据,之前运行速度不是很快,但现在需要这么长时间,看起来就像被冻结了一样。有什么想法吗?我认为这与我在以前的 Python 环境中安装的包有关,比如 C 编译器或其他东西。输出什么都没有,因为它只是挂了很长时间,然后慢慢地在脚本中移动。它没有损坏,也没有陷入循环。如果我等待的时间足够长,它将开始向我显示正确的输出。当我点击“Ctrl-C”时,这就是我得到的。

不要认为这有帮助,但以防万一。

0 投票
2 回答
2360 浏览

machine-learning - 使用 scikit 选择层次凝聚聚类中的聚类数

关于确定数据集中的集群数量的维基百科文章表明,在使用层次聚类时,我不需要担心这样的问题。但是,当我尝试使用 scikit-learn 的 凝聚聚类时,我发现我必须将聚类的数量作为参数“n_clusters”提供给它——没有它我会得到两个聚类的硬编码默认值。在这种情况下,我该如何为数据集选择正确数量的集群?维基文章错了吗?

0 投票
1 回答
251 浏览

machine-learning - 使用 WEKA 在 Xmeans 中选择最小和最大簇数

我看到 WEKA 接口需要在运行 X-means 聚类算法之前指定最小和最大聚类数。确定这些数字的好方法是什么?X-means不是应该减轻选择集群数量的负担吗?

0 投票
1 回答
488 浏览

deep-learning - 为什么无监督模型需要实现 nn.diag?

我正在努力学习深度学习。

在火炬教程中,

https://github.com/torch/tutorials/blob/master/2_supervised/2_model.lua

https://github.com/torch/tutorials/blob/master/3_unsupervised/2_models.lua

监督模型

无监督模型

为什么无监督模型需要实现 nn.Diag ?

提前致谢。

0 投票
2 回答
1022 浏览

r - 如何解释 R kmeans 函数的结果?

我有一大组数据,其中包含 81432 幅图像的描述。这些描述是由一个图像描述符生成的,该描述符生成一个具有 127 个位置的向量(对于每个图像)。所以,我有一个 81432 行 127 列的矩阵。

我正在从 R 运行kmeans,但我只是不知道如何解释结果。我已经设置了一些集群,算法运行了,那又怎样?我想绘制肘部规则,但我什至不知道该怎么做。

0 投票
3 回答
7149 浏览

machine-learning - 关联传播首选项初始化

我需要在事先不知道集群数量的情况下执行集群。集群的数量可能从 1 到 5,因为我可能会发现所有样本属于同一个实例或属于有限数量的组的情况。我认为亲和力传播可能是我的选择,因为我可以通过设置偏好参数来控制集群的数量。但是,如果我有一个人工生成的单个集群,并且我将偏好设置为节点之间的最小欧几里德距离(以最小化集群的数量),那么我对集群的感觉会很糟糕。

在此处输入图像描述

我使用 Affinity Propagation 的方法有什么缺陷吗?相反,Affinity Propagation 不适合这项任务,所以我应该使用其他东西吗?

0 投票
2 回答
1286 浏览

scikit-learn - AgglomerativeClustering scikit 学习连接性

在调用AgglomerativeClustering之后,我期望数据被分成 2 个集群(0-3) 和 (4-7) 即 labels_=[0,0,0,0,1,1,1,1] 但设置了标签列表是 [0, 0, 0, 1, 0, 0, 0, 1]

我的代码如下 s=AgglomerativeClustering(affinity='precomputed',n_clusters=2,linkage='complete) s.fit(x)

代码是否包含任何错误?为什么聚类不符合预期

0 投票
3 回答
598 浏览

python - 在 Python 中使用 K-means 学习特征

问题

我在 Python 中实现了一个 K-Means 算法。首先,我将 PCA 和白化应用于输入数据。然后我使用 k-means 成功地从数据中减去 k 个质心。

我如何使用这些质心来理解所学的“特征”?质心是否已经是特征(对我来说似乎不是这样)还是我需要再次将它们与输入数据结合起来?

由于一些答案:K-means 不仅仅是一种聚类方法,而是一种矢量量化方法。也就是说,k-means 的目标是描述特征向量数量减少的数据集。因此,关于潜在结果,与稀疏过滤/学习等方法有很大的相似之处。

代码示例

0 投票
2 回答
1521 浏览

r - R:聚类——如何预测新病例?

我在一组 150 名患者中有 4000 个(连续)预测变量。首先,应确定与生存相关的变量。因此,我使用多重测试程序功能(http://svitsrv25.epfl.ch/R-doc/library/multtest/html/MTP.html)和 t 统计量来测试 Cox 比例风险生存模型中的回归系数,以识别重要的预测因子。该分析确定了与生存显着相关的 60 个参数。然后我使用 ConensusClusterPlus 包(https://www.bioconductor.org/packages/release/bioc/html/ConsensusClusterPlus.html),它根据 CDF 曲线和进展图将 3 个集群确定为最佳解决方案。然后,如果我执行 Kaplan-Meier 生存分析,我会发现三个集群中的每一个都与不同的生存模式(低/中/长生存)相关联。

我现在遇到的问题如下:假设我有另一组 50 名患者,我想预测每个患者最可能属于三个集群中的哪一个。我怎样才能做到这一点?我是否需要训练一个分类器(例如使用插入符号包(topepo.github.io/caret/bytag.html),其中具有 60 个重要参数的 150 名患者在训练集中,并且算法知道分配给哪个患者三个集群中的哪一个)并在 50 名新患者中验证分类器?然后进行 Kaplan-Meier 生存分析,看看验证集 (n=50) 中的预测聚类是否再次与不同的生存模式相关联?

谢谢你的帮助。

0 投票
1 回答
475 浏览

python - 可视化 PCA 转换的数据

我有一个数据集,我想在其上使用 k-means 进行聚类。
作为之前的任务,我对这些数据运行 PCA,并确定了代表我数据集几乎 90% 信息的两个组件。我想可视化这两个组件以得出一些见解。

在此处输入图像描述

接下来,我尝试从转置矩阵可视化相同的转换数据

在此处输入图像描述

最后一个图是否表明我的数据中可能有 6 个集群?如果有的话,我可以从这两张图中得出什么结论?