问题标签 [feature-clustering]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
83 浏览

python - 基于模型参数的聚类

我一直在尝试基于 SGD 模型参数(系数和截距)进行聚类。coef_ 持有权重 w,intercept_ 持有 b。这些参数如何与一组学习模型上的聚类(KMedoids)一起使用?

所以我想基于每个学习模型clf.coef_ (array([[19.47419669, 9.73709834]]))进行 聚类。clf.intercept_ (array([-10.]))

0 投票
1 回答
197 浏览

express - 如何在示例示例中从 ClusterBuster 矢量切片服务器接收切片数据?

概括

似乎这些家伙在ClusterBuster矢量切片服务器上的内置过滤、集群和缓存方面做得很好。我对这个看起来很有前途的项目感到非常兴奋,我很想尝试一下!

我正在开发一个项目,通过它们的集成从矢量切片服务器在 Google 地图上绘制Deck.gl图层 ( MVTLayer ) 。我想尝试集成并从 ClusterBuster 服务器提供一些保存在 PostGIS 中的聚类点。

预期结果:

  • 我想从 ClusterBuster 矢量切片服务器接收切片数据,就像他们提供的示例示例一样。

实际结果:

  • 提供的示例示例不起作用(地图上、Mapbox 上和带有 Deck.gl 的 Google 地图上都没有显示点)。

我的尝试

我尝试构建和运行提供的示例,但不知何故,我无法做到这一点。

我运行了提供的快速服务器clusterbuster/example/express.ts,并尝试使用提供的 mapbox 示例clusterbuster/example/mapbox.html(使用我的 mapbox 令牌)进行前端,但 mapbox 地图上没有出现任何内容(也没有使用我的 Deck.gl 示例出现在 Google 地图上)。

如中所述,clusterbuster/example/readme.md我创建了一个.env带有 PostGIS 连接设置的文件。

运行以下命令后:

我得到这个输出:

请求似乎没问题,返回状态 200,但来自 ClusterBuster 服务器的图块数据未定义,地图上没有任何内容(您的 Mapbox 或我的 Google 地图)。此外,奇怪的是所有平铺响应似乎都具有相同的大小 216 B。 _img

数据在 PostGIS 数据库中导入正常。 _img2

结果是undefinedexpress.ts使用 VSCode Javascript 调试终端调试服务器文件并使用命令启动它之后ts-node .\example\express.ts

在 Chrome 网络选项卡中,在任何子选项卡的预览或响应中,我都看不到任何数据。 _img 1-2

我还尝试在成功功能中将结果图块记录在快速服务器中,

下面是输出,我得到undefined在此处输入图像描述

任何帮助或建议都非常感谢!先感谢您!

0 投票
1 回答
49 浏览

r - 围绕值的固定向量聚类

我有一个具有不同特征的品牌数据集,如卡路里、糖含量、纤维含量等,例如 例子

使用dput()

我想从中挑选 5 个品牌,比如品牌 1、2、3、4 和 5,然后形成与这 5 个品牌中的每一个具有相似特征的品牌集群或组,并保留所有其余不相似的品牌一个单独的集群。因此,我将有 1 个集群品牌 1,品牌 2 为 1,品牌 3 和品牌 4 和 5 类似。然后将有 1 个与这 5 个品牌中的任何一个都不相似的品牌集群。该特征可以是虚拟的或连续的。

我认为这应该很容易,但是,我在“R”中找不到任何包。

0 投票
1 回答
259 浏览

machine-learning - Sklearn k-means聚类(加权),确定每个特征的最佳样本权重?

sklearn中的K-means聚类,聚类的数量是预先知道的(它是2)。有多种功能。特征值最初没有分配任何权重,即它们被同等加权。然而,任务是为每个特征分配自定义权重,以获得最佳的聚类分离。如何确定每个特征的最佳样本权重(sample_weight),以获得两个集群的最佳分离?如果这对于 k-means 或 sklearn 是不可能的,我对任何替代聚类解决方案感兴趣,关键是我需要自动确定多元特征的适当权重的方法,以最大化聚类分离。

0 投票
0 回答
8 浏览

autoencoder - 低维聚类会比高维更准确吗?

我有一个关于潜在空间的问题。
在 GAN 或 AE 中,存在降低数据集维数的潜在空间。
我正在研究 KDD CUP 数据集。
从低维(潜在空间)提取的特征聚类是否有可能比高维更准确?
从低维提取的特征是指从 AE 编码器中提取的特征。
你怎么看待这件事?

如果你认为它可以,我该如何证明呢?
只是将它们都聚集在一起?并检查它们的准确性?
还是有其他方法?

0 投票
0 回答
71 浏览

python - Python:使用文本、分类和日期特征进行聚类

我正在尝试对技术流程进行聚类。在我的数据集中,我有很多文本数据,我已经使用 TF-IDF 和 k-means 对其进行了聚类。现在我还想使用其他一些功能,例如部门名称(分类名称)和日期(或流程的天数)。

我对如何做到这一点有点困惑。我可以只制作一个包含所有功能的矩阵(用于描述的 TF-IDF 矩阵 + 部门(每个部门使用一个独特的数字)+ 持续时间的天数)?

这是我的数据集的示例: 在此处输入图像描述

我会感谢任何建议

0 投票
0 回答
17 浏览

r - 给定地理空间数据的配对位置

我有以下两个虚构的数据表。第一个是包含各个商店位置的纬度和经度、商店类型以及商店的通用数字 ID 的数据表。它看起来像这样:

第二个是参考位置表。这有一堆我想与我的数据配对的位置。即,我想在我的参考位置“x”公里范围内找到所有与我的参考位置相同类型的商店。

您可以将其视为类似于拥有一堆商店(杂货店、硬件、服装等)和一堆参考位置(杂货店总部、硬件、服装等)并询问:鉴于此参考点是一个“杂货店总部”,5公里范围内有哪些杂货店?是否有任何软件包可以使这样的任务比看起来更容易?对 R 和地理空间数据的新手有什么建议或提示吗?

0 投票
1 回答
209 浏览

k-means - k-mean 聚类 - 惯性只会变大

我正在尝试在人体关节的人体姿势数据集上使用来自faiss的 KMeans 聚类。我有 16 个身体部位,因此尺寸为 32。关节的缩放范围在 0 到 1 之间。我的数据集包含约 900.000 个实例。正如 faiss ( faiss_FAQ ) 所述:

根据经验,k-means 量化器在 20 次迭代和 1000 * k 个训练点之后没有一致的改进

将此应用于我的问题,我随机选择 50000 个实例进行训练。因为我想检查1 到 30 之间的集群k的数量。

现在到我的“问题”:

随着集群数量的增加,惯性直接增加(x轴上的n_cluster): 惯性

我尝试改变迭代次数、重做次数、详细和球形,但结果保持不变或变得更糟。我不认为这是我实施的问题;我在一个带有 2D 数据和非常清晰的集群的小示例上对其进行了测试,它确实有效。

是数据只是聚集不良还是我错过了另一个问题/错误?也许是 0 和 1 之间的值的缩放?我应该尝试另一种方法吗?

0 投票
0 回答
126 浏览

python - 使用 NMF(非负矩阵分解)进行聚类

我正在研究交通数据以估计公共汽车的到达时间。我正在尝试使用 NMF 将路段(从第 I 站到下一站 I+1 的每个路段)聚类到 k 个集群中,其中每个集群具有基于交通拥堵和流量的相似旅行时间的路段。主矩阵 X 是 N M,其中 N 是路线中的段数,M 是白天的间隔次数,Xi,j 是链路 i 在间隔时间 j 的行程时间。我正在使用 Sklearn.decomposition.NMF 模型来查找 W H 矩阵,如下所示:

知道如何找到集群的数量以及与每个集群相关的段。

这是我得到的 X、W、H 矩阵:

0 投票
0 回答
68 浏览

python - 如何仅在 numpy 数组的“一维”上应用 K-means++ 并按原样保留另一维

我在形状 (2048, 475)上应用了 k-means 算法。我使用了以下代码

我只想将 K-means 聚类应用于值为 475 的维度(从 475 生成 36 个集群)并按原样保留第一个维度。有人可以帮我解决这个问题吗?