问题标签 [unsupervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
neural-network - 如何在时间序列数据中一起识别移动点
我有一个时间序列的点,即定期从某个 api 获取 x 和 y 坐标,我想弄清楚哪些点在查看它们的 x 和 y 坐标时实际上是一起移动的。有人可以给我一个关于这个问题的起点,我应该选择 KMeans 还是一些监督学习算法。
nlp - 什么是远程监督?
根据我的理解,远程监督是指定段落中的单个单词(通常是句子)试图传达的概念的过程。
例如,数据库维护结构化关系concerns( NLP, this sentence).
我们的远程监督系统将输入以下句子:"This is a sentence about NLP."
基于这个句子,它将识别实体,因为作为预处理步骤,该句子将通过命名实体识别器NLP
& this sentence
。
由于我们的数据库有它NLP
并且this sentence
通过它的键相关联,concern(s)
因此将输入句子识别为表达关系Concerns(NLP, this sentence)
。
我的问题有两个:
1)那有什么用?是不是以后我们的系统可能会在“狂野”中看到一个句子,例如That sentence is about OPP
并意识到它看到了与之前类似的东西,从而实现了新的关系,例如concerns(OPP, that sentence).
,仅基于单词/单个标记?
2)是否考虑到句子的实际单词?例如,动词“是”和副词“关于”,意识到(通过 WordNet 或其他一些下位词系统)这在某种程度上类似于高阶概念“关注”?
有没有人有一些代码用于生成我可以查看的远程监督系统,即交叉引用 KB(如 Freebase)和语料库(如 NYTimes)并生成远程监督数据库的系统?我认为这将大大有助于澄清我对远程监督的概念。
machine-learning - 聚类标签的无偏预测
我有兴趣评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集,并且我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了 4 个集群。现在,我想知道这个集群成员是否可以从表达式数据中预测出来。使用全数据无监督集群标签作为输出变量,我以交叉验证的方式训练监督分类器。因此,我使用 80% 的数据训练分类器,并评估另外 20% 的准确度。
这种方法是否有偏差,因为输出集群标签是从完整数据中学习的?如果是,我怎样才能以公正的方式做到这一点?如果我以交叉验证的方式进行聚类,我认为我需要手动关联每个不同折叠之间的聚类。由于我对四个集群中的一个集群与其他集群的可预测性特别感兴趣,因此我必须通过某种手动分析找出数据的每个折叠集群中哪个集群。
machine-learning - calculating similarity between two profiles for number of common features
I am working on a clustering problem of social network profiles and each profile document is represented by number of times the 'term of interest occurs' in the profile description. To do clustering effectively, I am trying to find the correct similarity measure (or distance function) between two of the profiles.
So lets say I have following table of profiles
Now, going by calculating euclidean distance, I get
Now, this is fine, but there are two questions coming to my mind
Here we are disregarding number of features that are common, for example, even though profile 1 and profile 3 are nearest, going by human intuition, profile 1 and profile 2 at least have some value in all three interests -basketball, cricket and python and hence these two profiles likely be more similar rather than profile 1 and profile 3 where one of them(profile 3) does not mention python in profile. I also don't want just count of similar features for distance which will yield surely wrong results.
My first question - Is there any way I can accommodate this intuition by any of the established ways?
My second question - there can be some profile authors more verbose than others, how to adjust this? because verbose author of profile having 4 occurrences of python may be same as less verbose author 2 occurrences of python.
I was not able to come up with good title for the question. So sorry if its confusing.
image-processing - 深度网络框架中卷积稀疏编码的实现
我想实现一些类似于本文中描述的卷积稀疏编码过程:http: //cs.nyu.edu/~ylan/files/publi/koray-nips-10.pdf 我尝试了不同的框架(caffe,eblearn火炬),但似乎缺乏对无监督特征学习过程的教程/支持,例如这个。作者说这篇特别的文章是使用 eblearn 完成的,但我没有发现那里没有无监督的学习过程。有没有人尝试过实现这些算法,如果有的话,他使用了哪些库/框架?谢谢
machine-learning - 隐马尔可夫模型:是否有可能随着状态数的增加准确率降低?
我使用 Baum-Welch 算法为越来越多的状态构建了几个隐马尔可夫模型。我注意到在 8 个状态之后,验证分数下降超过 8 个状态。所以我想知道由于某种过度拟合,隐马尔可夫模型的准确性是否会随着状态数量的增加而降低?
提前致谢!
machine-learning - 如何对大相似度矩阵进行层次聚类
我有大约 50K 数据集,其值可能介于 0 到 10 之间。我想应用 HAC 对这些数据进行聚类。但是要应用 HAC,我需要准备一个 N*N 相似度矩阵。
对于 N = 50 K ,即使我使用short,这个矩阵也会太大而无法保存在内存中。
有什么方法可以批量进行 HAC 或任何其他方法可以帮助我应用具有 50K 数据点的 HAC。我打算在java中实现它。
我也担心需要花费的总时间,任何关于此的指示都会非常有帮助。
machine-learning - 无监督学习中的训练/测试拆分是否必要/有用?
在监督学习中,我有典型的训练/测试拆分来学习算法,例如回归或分类。关于无监督学习,我的问题是:训练/测试拆分是否必要且有用?如果是,为什么?
machine-learning - 马尔可夫链 - 具有“未见”观察的样本的可能性(概率 0)
我有一个大的马尔可夫链和一个样本,我想计算它的可能性。问题是样本中的某些观察或转换不会发生在马尔可夫链中,这使得总可能性为 0(或对数似然 - 无穷大)。不可能使用更多的数据来构建马尔可夫链。我想知道是否有办法仍然有一个有意义的可能性。
我已经尝试过滤掉样本中的这些“未知”观察结果并单独报告它们。但问题是我想将样本的可能性与同一样本的可能性进行比较,但在转换之后。转换后的样本具有不同数量的“未知”观察值。所以我认为我不能比较这两种可能性,因为它们是用不同数量的观察值计算出来的。
有没有办法仍然计算可以比较的有意义的可能性?我正在考虑对样本中观察的概率进行平均,但我找不到任何关于正确的信息。
提前致谢!