问题标签 [unsupervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 对时间数据进行无监督学习的最新技术是什么?
我正在寻找最先进的方法的概述,
在时间数据中查找时间模式(任意长度)
并且是无监督的(没有标签)。
换句话说,给定一个(可能是高维的)数据流/序列,你如何找到那些最能捕捉数据结构的常见子序列。
欢迎任何指向最近的发展或论文(希望超越 HMM)的指针!
这个问题是否在更具体的应用领域中得到了很好的理解,比如
- 动作捕捉
- 语音处理
- 自然语言处理
- 游戏动作序列
- 股市预测?
- 此外,这些方法中的一些是否足够通用以应对
- 高噪声数据
- 层次结构
- 时间轴上的不规则间距
(我对检测已知模式不感兴趣,也不对序列的分类或分割感兴趣。)
matlab - matlab 的 k 均值是否会重新计算种子的集群成员?
我无法找到matlab's k-mean
有关种子的详细信息。如果 matlab 的 k-mean 重新计算 的集群分配Xs seeds
,它是data set X
矩阵的子集。
或者这些种子仅用于初始居中位置,在 k-means 集群分配阶段不考虑?
我想semi-supervised clustering by seeds
通过 Sugato Basu et.al 这可能是一个幼稚的问题,但你的回答会让这种困惑更加清晰。
提前致谢。
machine-learning - 我们如何在数据集上使用无监督学习技术,然后标记集群?
首先,这肯定是功课(所以请不要完整的代码示例)。那就是说...
我需要使用 Matlab 中的神经网络工具箱测试监督算法旁边的无监督算法。数据集是UCI 人工字符数据库。问题是,我有一个关于监督算法的很好的教程,却被无监督地淹没了。
所以我知道如何使用 . 创建自组织地图 selforgmap
,然后使用train(net, trainingSet)
. 我不明白接下来要做什么。我知道它把我给它的数据聚集成(希望)10个集群(每个字母一个)。
那么两个问题:
- 然后我如何标记集群(假设我有一个比较模式)?
- 当我这样做时,我是否试图将其变成一个监督学习问题?
- 如何在(另一个)测试集上创建混淆矩阵以与监督算法进行比较?
我想我在这里遗漏了一些基于概念或行话的东西——我所有的搜索都提出了监督学习技术。一个正确方向的观点将不胜感激。我现有的代码如下:
python - 使用 NLTK 的半监督朴素贝叶斯
我基于 EM(期望最大化算法)在 Python 中构建了 NLTK 朴素贝叶斯的半监督版本。但是,在 EM 的某些迭代中,我得到了负对数似然(EM 的对数似然在每次迭代中都必须为正),因此我相信我的代码中一定有一些错误。仔细查看我的代码后,我不知道为什么会发生这种情况。如果有人能在下面的代码中发现任何错误,将不胜感激:
EM算法主循环
自定义函数 gen-freqdists,用于创建所需的频率分布
r - R中的主成分分析(PCA):使用哪个函数?
谁能解释 prcomp 和 princomp 函数之间的主要区别是什么?
有什么特别的原因为什么我应该选择一个而不是另一个?如果这是相关的,我正在查看的应用程序类型是基因组(表达)数据集的质量控制分析。
谢谢!
pca - 推荐降维算法(PCA不适合)
对于这个应用程序,我想使用一种降维算法,这样给定数量的组件都可以解释数据中相同数量的方差。
因此,主成分分析不适合,因为解释的方差从第一个主成分到每个后续主成分急剧下降。
我可以使用哪些算法?
self-organizing-maps - 轻量级无监督学习方法,如自组织地图
我正在尝试开发一个轻量级系统,该系统使用无监督学习方法,该方法使用 CPU、RAM 利用率等系统参数来训练异常检测系统。除了自组织地图,我想不出任何东西。我可以在这里考虑其他任何学习技巧吗?
mahout - 我应该为此使用mahout吗?
我想推荐带有标签并分为三个价格类别(便宜、普通和昂贵)的商品。我知道使用 Mahout 推荐可以实现,但这就是我不知道如何使用它的原因。
Mahout 基于其他用户的意见,但我要推荐的所有新项目都只是尚未设置任何偏好的新项目。
Mahout 是解决此问题的正确工具吗?这是基于内容的吗?(哪个 mahout 还不支持????)还是我应该使用分类?
谢谢!
cluster-analysis - 主题建模和文档聚类之间有什么关系?
主题建模识别文档集合中的主题分布,从而有效地识别集合中的集群。那么是否可以说主题建模是一种进行文档聚类的技术?
machine-learning - 机器学习:无监督反向传播
我对通过神经网络进行机器学习的一些概念有疑问。其中之一是反向传播。在权重更新方程中,
t
是“目标输出”,在监督学习的情况下,这将是您的类标签或其他东西。但是无监督学习的“目标输出”是什么?
有人可以提供一个示例,说明您如何在无监督学习中使用 BP,特别是用于分类聚类?
提前致谢。