1

给定一个分布在 6 个维度上的 23 个点的数据集,在本练习的第一部分中,我们应该执行以下操作,而我被困在后半部分:

  • 计算 CLIQUE 算法的第一步(检测所有密集单元)。在域 0..100 中每个维度使用三个相等的间隔,如果一个单元格包含至少五个对象,则认为它是密集的。

现在这是微不足道的,只是一个计数的问题。下一部分询问以下内容:

  • 确定一种仅使用 Preprocess、Classify、Cluster 或 Associate 选项卡中提供的 Weka 功能来计算上述 CLIQUE 结果的方法。 提示:只需要两个选项卡。

我已经尝试了一个多小时,但我似乎无法在这里找到解决方案。如果有人有提示,或者可能是有用的教程,可以让我对 weka 有更多的了解,我们将不胜感激!

4

1 回答 1

2

我假设您有 23 个实例(行)和 6 个属性(维度)

每个维度使用三个相等的间隔

使用预处理选项卡将您的数据离散化为 3 个相等的 bin。请参阅图像或命令行。您使用 3 个箱子作为间隔。您可以选择将 useEqualFrequency 更改为 false 和 true 并重试。我认为 true 可能会给出更好的结果。

weka.filters.unsupervised.attribute.Discretize -B 3 -M -1.0 -R first-last

无监督的.attribute.Discretize

之后对您的数据进行聚类。这将向您展示附近的实例。因为你想找到密集的细胞。我认为 SOM 可能是合适的。

如果它包含至少五个对象,则该单元格与它一样密集。

您有 23 个实例。因此尝试 2x2=4 聚类中心,然后选择 2x3=6,2x4=8 和 3x3=9。如果您的数据点在附近。无论您选择多少个集群中心,一些集群中心应该始终拥有 5 个实例。

于 2012-06-09T09:52:54.103 回答