问题标签 [unsupervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
multidimensional-array - 多特征聚类
我想知道如何执行具有多个特征的聚类分析。例如,让我们考虑一下,每个对象都有一组特征(我有很多对象)。并且这些特征中的每一个都有一个特定的维度(特征 A 是 n 维的向量,特征 B 是 m 维的向量,等等)
如何将所有对象的所有不同特征聚集在一起?
algorithm - 分段多语言并行文本
我有多语言文本,其中包含翻译成多种语言的消息。例如:
顺序不准确。我想设计一种有监督/无监督的学习算法来自动进行分割,并提取每个翻译以创建一个并行的数据语料库。
你能建议任何论文/方法吗?我无法获得用于谷歌搜索的正确关键字。
machine-learning - 使用 Weka 进行无监督聚类
我有以下格式的数据:
也就是说,一个三元组列表,其中:
- X,对象的名称;
- Y,另一个对象的名称;
- sim(X,Y),一个实数,表示两个对象之间的距离。
现在,我想对这些数据应用一些无监督的聚类算法。我想到了 Weka,但我也很乐意考虑替代方案。
python-2.7 - StandardScaler() 是否维持秩序?
在将训练数据集提供给聚类模型之前,我正在使用 StandardScaler 转换数据。
假设,clf 是无监督集群模型,我预测标签如下:
问题:如何组合“y”和“X_train”numpy 数组?我不确定 StandardScaler() 是否保持矩阵内的顺序。那么,这会奏效吗?
r - 短语的无监督语义聚类
我有大约一千个潜在的调查项目作为我想减少到几百个的字符串向量。通常,当我们谈论数据缩减时,我们有实际数据。我将项目管理给参与者,并使用因子分析、PCA 或其他一些降维方法。
就我而言,我没有任何数据。只是项目(即文本字符串)。我想通过消除具有相似含义的项目来减少集合。据推测,如果实际对参与者进行管理,它们将高度相关。
我一直在阅读有关文本分析的聚类方法。这个SO question演示了我在不同示例中看到的一种方法。OP 指出集群解决方案并不能完全回答他/她的问题。在我的情况下,它是如何应用的(不令人满意):
链接到带有示例项目的 dput() 的 text.R 文件
该图显示项目 145 和 149 是聚类的:
145“让你知道你不想要”
149“让你知道他爱你”
这些项目共享相同的词干,“让你知道”,这可能是聚类的原因。从语义上讲,它们是对立的。
OP 在他/她的例子中遇到了类似的挑战。一位评论者指出该wordnet
软件包是一种可能的解决方案。
问题(根据反馈编辑)
如何防止像 145 和 149 这样的项目因为它们共享词干而聚集?
程序化重点较少的次要问题:有人在这里看到更好的解决方案吗?我遇到的许多方法都涉及监督学习、测试/训练数据集和分类。我相信我正在寻找的是更多的语义相似性/聚类(例如 FAC pdf)。
data-mining - 为什么支持向量机中只有超平面?
我最近才了解支持向量机。据我了解,超平面用于将数据(提升到更高维度)分成两个相互排斥的部分(分区)。我的问题是为什么它应该是超平面而不是具有曲率的曲面?那不会提供更适合的分离“表面”吗?
artificial-intelligence - 什么是 k 均值的收敛?
我有一个关于无监督学习的小问题,因为我的老师在任何讲座中都没有使用过这个词。我在阅读教程时得到了这个词。这是否意味着如果值与集群的最后一次迭代中的初始值相同,则称为收敛?例如
现在在执行 n 次迭代之后,如果 c1 和 c2 中的值相同,即最后 n 次迭代中的 (1,0) 和 (2,1) 并且如果不是 single ,则取 avg ,是否收敛?
computer-vision - 您如何确定用于图像分类的卷积神经网络的参数?
我正在使用卷积神经网络(无监督特征学习来检测特征 + Softmax 回归分类器)进行图像分类。我已经阅读了 Andrew NG 在这方面的所有教程。(http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial)。
我开发的网络有一个:
- 输入层 - 大小 8x8(64 个神经元)
- 隐藏层 - 大小 400 个神经元
- 输出层 - 大小 3
我已经学习了使用稀疏自动编码器将输入层连接到隐藏层的权重,因此具有 400 个不同的特征。
通过从任何输入图像 (64x64) 中获取连续的 8x8 补丁并将其馈送到输入层,我得到了 400 个大小为 (57x57) 的特征图。
然后我使用大小为 19 x 19 的窗口的最大池化来获得 400 个大小为 3x3 的特征图。
我将此特征图提供给 softmax 层,以将其分为 3 个不同的类别。
这些参数,例如隐藏层的数量(网络的深度)和每层的神经元数量,在教程中被提出,因为它们已成功用于一个特定的数据集,其中所有图像的大小为 64x64。
我想将此扩展到我自己的数据集,其中图像要大得多(比如 400x400)。我如何决定
层数。
每层的神经元数量。
池化窗口的大小(最大池化)。
cluster-analysis - 为 k-means 聚类模型选择适当的相似性度量
我正在使用 k-means 算法对我的数据进行聚类。我有 5000 个样本。.(我的每个样本都是关于一个客户的。为了分析客户价值,我将根据 4 个行为特征对它们进行聚类。)使用欧几里德度量和 Pearson 相关性计算距离。
我需要知道
我不知道欧几里得距离是计算距离或皮尔逊相关的正确方法吗?我正在使用剪影来验证我的聚类。当我使用 Pearson 相关性轮廓值时,比使用欧几里得度量时要多。这是否意味着皮尔逊相关更适合距离度量?