问题标签 [unsupervised-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2140 浏览

matlab - 当输入是3D矩阵时如何进行聚类,MATLAB

我有 3D 矩阵,其中大多数值为零,但有一些非零值。

当我在 matlab 中绘制这个 3D 矩阵时,我得到如下图

在这里你可以看到有两组点彼此更近(这就是颜色变暗的原因),而两组点很远......

在此处输入图像描述

所以我的目标是将两个更接近的点组聚类并使其成为一个cluster1,另外两个将被称为cluster2和cluster3 ....

我尝试了 kmeans 聚类、BIC 聚类……但由于 kmeans 聚类基本上是为 2D 数据输入建立的,我在那里遇到了障碍……然后我将 3D 矩阵重塑为 2D 矩阵,但我仍然收到另一个错误Subscripted assignment dimension mismatch

所以你能不能想出一些富有成效的想法来做到这一点......

0 投票
1 回答
367 浏览

machine-learning - 使用 ELKI MiniGUI 进行带有训练集和测试集的异常检测

我有:

  1. training.arff仅包含具有正常行为的样本的文件。

  2. test.arff包含具有正常和异常行为的样本的文件。

我想使用 ELKI MiniGUI 使用半监督学习进行异常检测。

我相信通常我应该使用构建/训练模型training.arff,然后将模型应用到test.arff.

我使用哪种算法并不重要。

我似乎无法找到将这两个文件放在 ELKI MiniGUI 中的位置,所以我会得到我想要的结果。(只有一个dbc.in

*PS:尝试使用 weka 一周后我放弃了,但我不仅限于 ELKI。

谢谢!!

0 投票
0 回答
477 浏览

python - 使用对比发散训练的深度神经网络中的 ReLU

我正在尝试采用来自http://deeplearning.net/tutorial/DBN.html#dbn的具有对比发散的深度学习代码来处理实值输入数据,而不是教程中描述的二进制。我知道这样做的方法是从 sigmoid 激活函数切换到整流线性单元 (ReLU),但从实际角度来看,我对这样做有一些疑问......

  1. 我可以简单地使用定义为 max(0,x) 的 ReLU,还是需要定义为 max(0,x+N) 的 NReLU,其中 N 是高斯噪声?如果推荐使用 NReLU,那么计算样本 N 的正确方法是什么?
  2. 如果我使用 ReLU(或 NReLU),我是否需要修改我的自由能函数,对于 sigmoid 单位是 python 代码...

    /li>

从我在论文中看到的内容来看,上面的内容看起来实际上适用于 sigmoid 和 ReLU。如果这不正确,我将不胜感激发布适用于 ReLU 的修改代码。

0 投票
1 回答
743 浏览

r - R中栅格堆栈的无监督随机森林分类

我想从 R 中的栅格堆栈中计算出无监督的随机森林分类。栅格堆栈在不同的光谱带中表示相同的范围,因此我想获得堆栈的无监督分类。我的代码有问题,因为我的数据非常庞大。是否可以将堆栈转换为数据帧以便像这样运行随机森林算法:

这是 csv 文件形式的数据(https://www.dropbox.com/s/gkaryusnet46f0i/stack_median_df.csv?dl=0) - 您可以通过以下方式读取它:

我的下一步将是无监督分类:

由于我的数据集庞大,无法计算邻近度度量(大约需要 6000GB)。你知道怎么才能看分类吗?作为predict(median_rf)并且plot(median_rf)不返回任何东西。

我很高兴看到无监督随机森林分类及其准确性措施的每一个建议、改进或代码片段,...非常感谢!

0 投票
3 回答
6036 浏览

python - 使用 SciKit 在 python 中进行文档聚类

我最近开始在 python 中使用 SciKit 模块进行文档聚类。但是,我很难理解文档聚类的基础知识。

我知道的 ?

  • 文档聚类通常使用 TF/IDF 完成。它本质上将文档中的单词转换为向量空间模型,然后输入到算法中。
  • 有许多算法,如 k-means、神经网络、层次聚类来实现这一点。

我的资料:

  • 我正在尝试使用linkedin 数据,每个文档都是linkedin 个人资料摘要,我想看看类似的工作文档是否聚集在一起。

当前挑战:

  • 我的数据有大量的摘要描述,当我应用 TF/IDF 时,这些描述最终变成了 10000 字。是否有任何适当的方法来处理这些高维数据。
  • K - 均值和其他算法需要我指定编号。集群(质心),在我的情况下,我不知道预先集群的数量。我相信这是一种完全无监督的学习。是否有可以确定否的算法。集群本身?
  • 我以前从未使用过文档聚类,如果您知道解决此问题的教程、教科书或文章,请随时提出建议。

我浏览了 SciKit 网页上的代码,它包含太多我不明白的技术词汇,如果你们有任何解释或评论的代码,请分享。提前致谢。

0 投票
2 回答
64 浏览

security - 是否可以区分使用同一集合中的不同加密算法加密的字符串?

是否可以区分使用不同加密算法加密的字符串?

如果我有一组来自不同加密算法的 N 个加密字符串(即 100 个来自 AES,150 个来自tripleDES,等等......)我想知道是否有可能出现一个合理的错误,即存在某种聚类字符串(即 AES 集群中的 111,tripleDES 集群中的 139)还简化为加密的密钥或字符串是相同的,并且显然没有先验知识(即使有培训也可能很有趣) .

有一些关于那个的作品,论文,玩具例子吗?

谢谢

0 投票
3 回答
3407 浏览

machine-learning - 如何在 Weka 中计算集群评估的准确性

我们如何使用 Weka 计算集群的准确性?

我可以使用这个公式:

但是如何知道 Weka 工具中的实验输出中的真阳性、假阳性、真阴性和假阴性是什么?

0 投票
0 回答
60 浏览

machine-learning - 决定呈现哪个 UI 的学习方法

该应用程序源于公共交通。用户打开应用程序并查看特定站点的巴士发车时间(第 1 页)或使用旅程计划器计划从位置 A 到 B 的旅程(第 2 页)。两个独立的页面,两个独立的功能。

第 1 页可以说用户对路线很熟悉,因为他们只需要知道出发地,第 2 页反之,他们不知道路线,需要行程规划师来协助他们。

我正在尝试制作一个应用程序,根据特定变量(这将构成一个状态)向用户显示其中一个页面。应用程序向用户显示的页面取决于给定用户行为对那些特定状态的先前奖励;用户将要么 1) 停留在第一个显示的页面上,这将导致 + 奖励或 2) 导航到另一个页面,这将导致 - 奖励。

简单来说,我想在用户进入应用程序时向用户显示正确的页面,这样用户就不必自己导航到那里。

我可以使用的功能包括以下内容:

使用此集合的示例如下:

用户进入应用程序,应用程序显示第 1 页(默认页面)。用户停留在页面上,给予状态奖励。

由于大多数通勤者有 7-4 份工作,这是非常例行的。周一至周五,用户通常每天早上乘公共汽车上班,然后回到家中。他知道他的路线,因此第 1 页最适合显示。这位用户在一个非特定的周五晚上在酒吧外出,也喝了一品脱,最后在谁知道的中间参加了一个派对,导致试图回家,第 2 页对他来说是最佳选择星期六早上。

随着学习的进行,应用程序必须在做出假设之前进行学习,它还必须响应常规的变化。用户可能会换工作或搬家。可以肯定地说,如果用户不知道他们在哪里,那么应该显示第 2 页,如果应用程序确信用户知道他要去哪里,第 1 页是更好的选择。

现在我的问题。哪种算法/方法最适合这项任务。花时间在一个人身上只是为了意识到这完全是一种浪费,这只不过是一种无赖。我之前做过监督学习,但是由于显而易见的原因,这不会削减它。

这是一个(经常出现的?)强化学习或无监督学习问题,我应该如何解决它?

欢迎对任何事情发表评论!我总是喜欢让自己变得更好。

0 投票
1 回答
77 浏览

computer-vision - 我如何应用 SVM 或深度神经网络进行图像检索

得到图像数据集后,为所有图像构建特征库,该特征库是基于图像一部分的RGB颜色模型和HSV颜色模型的均值和sd的向量。给出查询图像后,如何使用 svm 从数据库中检索相关图像。

以及如何使用无监督学习来解决上述问题

0 投票
1 回答
1391 浏览

machine-learning - 将回归层添加到 caffe

我已经实现了一个基于深度学习的微笑检测系统。最底层是系统的输出,根据人的微笑量有10个输出。
我想用回归层将这十个输出转换为 1 到 10 范围内的数字输出。
我怎样才能在咖啡中做到这一点?
谢谢