问题标签 [silhouette]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
392 浏览

python-2.7 - 如果 k = 1,HAC 的轮廓系数

k=1如果(因此,1 个集群中的所有数据),如何计算 HAC 聚类的轮廓系数的值?轮廓系数的范围-1直到1,但对于单例 ( k=maximum)(只有 1 个数据的集群),轮廓系数为0。是轮廓0系数k=1还是-11剪影系数的公式在 这里

SC(i) = (b(i)-a(i))/max(a(i), b(i))

a(i) = Average distance of object with other object in one cluster.

b(i) = Minimum Average distance of object with other object in other cluster.

*对不起,我的英语不好

0 投票
2 回答
45529 浏览

python-2.7 - 如何在 sklearn 库的 k-means 聚类中使用轮廓分数?

我想在我的脚本中使用轮廓分数,以自动计算来自 sklearn 的 k-means 聚类中的聚类数。

有人可以帮我打问号吗?我不明白该放什么而不是问号。我从一个例子中获取了代码。注释的部分是之前的版本,这里我用固定的簇数设置为4进行k-means聚类。这种方式的代码是正确的,但是在我的项目中我需要自动选择簇的数量。

0 投票
2 回答
1600 浏览

python-3.x - 如何分析没有真实标签的聚类的完整性?

我正在对数据进行聚类(尝试多种算法)并尝试评估每种算法生成的聚类的一致性/完整性。我没有任何基本事实标签,这排除了很多用于分析性能的指标。

到目前为止,我一直在使用 Silhouette score 和 calinski harabaz score(来自 sklearn)。然而,有了这些分数,如果我的算法产生的标签建议至少有 2 个集群,我只能比较集群的完整性——但我的一些算法建议一个集群是最可靠的。

因此,如果您没有任何真实标签,您如何评估算法提出的聚类是否比所有数据仅分配在一个聚类中更好?

0 投票
1 回答
1528 浏览

cluster-analysis - 聚类分析:用负轮廓宽度校正观测值

我正在尝试在包含具有年度频率的时间序列数据的数据集(~1000 系列)中查找模式。一些样本数据:

请注意,数据是标准化的,因为我想根据相似的形状对时间序列进行聚类。我想象聚类分析将是一个适当的分析,我尝试使用以下函数对时间序列进行聚类:

a <- factoextra::eclust(Normalized_df, FUNcluster = "kmeans", nstart = 25, k.max = 5)

但是,我有一些观察结果的轮廓宽度为负。有没有办法纠正这些作业?例如,如果值 sil_width 为负,则将观测值放在邻居集群中。可以在下面找到一个示例。

动机是纠正这些观察结果,以增加集群的平均轮廓宽度。

任何帮助将非常感激!

0 投票
2 回答
258 浏览

scala - 播放 2.6 剪影组成 SecuredAction

我正在尝试做一些与此非常相似的事情ContextRequestContextAction。我有一个securedRequest来自Silhouette,我想撰写一个我设置的Action阅读。cookie

不同的是我扩展了Userfrom SilhouetteIdentity

DataSourceRequest

DataSourceAction

DefaultEnv

我无法得到User因为

(注意 com.mohiva.play.silhouette.api.Identity 不匹配 models.User:包实体中的类 User 是包 api 中 trait Identity 的子类,但方法参数类型必须完全匹配。)

我知道我可能缺少一个包装器。

0 投票
0 回答
208 浏览

function - 剪影函数给我一个错误:返回列表中未定义的元素号 2

我正在尝试使用轮廓函数检查 k-means 的性能,但出现错误。

我正在调用这样的函数 [out1,out2] = silhouette(normalized, idx); 或 [out1,out2] = 轮廓(归一化,idx,'余弦');

函数的定义是function [si, h] = silhouette(X, clust, metric)

我希望取一个介于 -1,+1 之间的数字,但我得到了错误:返回列表中未定义的元素编号 2。

我的剪影功能代码:

0 投票
0 回答
41 浏览

scala - 丢弃身份验证器时,如何解决与剪影 scala 库的不一致问题?

我在我的网站上使用play-silhouette-library版本 2.0.2 进行身份验证。

现在我有这个在用户注销时激活的方法:

但是,仅在 Chrome(不是 Firefox)上,用户大约有 40% 的时间无法退出。我认为这是由于身份验证器丢弃的某种竞争条件,所以作为一个快速测试,我Thread.sleep(20)在身份验证器丢弃之前添加了:

并且问题不会发生。但是,添加Thread.sleep()调用并不是完全可以生产的代码,所以我很难想出一个解决方案。

我试过了:

但这并没有解决问题。我对这种问题没有经验,希望得到一些帮助。

0 投票
3 回答
3347 浏览

r - R中针对大数据的轮廓计算

我想计算聚类评估的轮廓。R中有一些包,例如cluster和clValid。这是我使用集群包的代码:

该代码适用于较小的数据,例如具有 50,000 obs 的数据,但是当数据大小有点大时,我会收到类似“错误:无法分配大小为 704.5 Gb 的向量”的错误。这可能是 Dunn 索引和大型数据集的其他内部索引的问题。

我的电脑有 32GB RAM。问题来自计算 dist(data)。我想知道是否可以不提前计算 dist(data),并在剪影公式中需要时计算相应的距离。

感谢您对这个问题的帮助,以及我如何计算大型和超大型数据集的轮廓。

0 投票
1 回答
160 浏览

scala - 如何在同一应用程序中实现多个剪影 JWT 身份验证器?

有在同一个 Play Framework 应用程序中使用多种类型的身份验证器的示例,我之后的一个是使用 2 个 JWT 身份验证器,它们具有不同的 headerNames、颁发者声明和加密器,在同一应用程序中为每个应用程序使用单独的 Silhouette 环境。

更新:我为 Silhouette 创建了 2 个环境,但两个签名都相同,只是名称不同,如下所示:

这实际上提供了相同的功能,但实际上它们都是AuthenticatorService如何为不同的命名环境提供不同的?AuthenticatorServiceAuthenticatorService[JWTAuthenticator]

0 投票
1 回答
201 浏览

python - Python。如何将我自己的数据集导入“k 均值”算法

我想将我自己的数据(位于 .txt 文件中的句子)导入此示例算法,可以在以下位置找到:https ://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html

问题是这段代码使用了make_blobs数据集,我很难理解如何用 .txt 文件中的数据替换它。

我预测的是我需要在这里替换这段代码:

我也不明白这些变量X, y。我假设X是一个数据数组,那么y呢?

我应该像这样将所有内容分配给 X 并且示例代码可以工作吗?但是那些像中心、n_features 等make_blob特征呢?我需要以不同的方式指定它们吗?

任何帮助表示赞赏!