“feature-clustering”的相关标签问题

0 投票

1 回答

83 浏览

python - 基于模型参数的聚类

我一直在尝试基于 SGD 模型参数（系数和截距）进行聚类。coef_ 持有权重 w，intercept_ 持有 b。这些参数如何与一组学习模型上的聚类（KMedoids）一起使用？

所以我想基于每个学习模型clf.coef_ (array([[19.47419669, 9.73709834]]))进行聚类。clf.intercept_ (array([-10.]))

2020-08-04T12:50:50.600

0 投票

1 回答

197 浏览

express - 如何在示例示例中从 ClusterBuster 矢量切片服务器接收切片数据？

概括

似乎这些家伙在ClusterBuster矢量切片服务器上的内置过滤、集群和缓存方面做得很好。我对这个看起来很有前途的项目感到非常兴奋，我很想尝试一下！

我正在开发一个项目，通过它们的集成从矢量切片服务器在 Google 地图上绘制Deck.gl图层 ( MVTLayer ) 。我想尝试集成并从 ClusterBuster 服务器提供一些保存在 PostGIS 中的聚类点。

预期结果：

我想从 ClusterBuster 矢量切片服务器接收切片数据，就像他们提供的示例示例一样。

实际结果：

提供的示例示例不起作用（地图上、Mapbox 上和带有 Deck.gl 的 Google 地图上都没有显示点）。

我的尝试

我尝试构建和运行提供的示例，但不知何故，我无法做到这一点。

我运行了提供的快速服务器clusterbuster/example/express.ts，并尝试使用提供的 mapbox 示例clusterbuster/example/mapbox.html（使用我的 mapbox 令牌）进行前端，但 mapbox 地图上没有出现任何内容（也没有使用我的 Deck.gl 示例出现在 Google 地图上）。

如中所述，clusterbuster/example/readme.md我创建了一个.env带有 PostGIS 连接设置的文件。

运行以下命令后：

我得到这个输出：

请求似乎没问题，返回状态 200，但来自 ClusterBuster 服务器的图块数据未定义，地图上没有任何内容（您的 Mapbox 或我的 Google 地图）。此外，奇怪的是所有平铺响应似乎都具有相同的大小 216 B。

数据在 PostGIS 数据库中导入正常。

结果是undefined在express.ts使用 VSCode Javascript 调试终端调试服务器文件并使用命令启动它之后ts-node .\example\express.ts。

在 Chrome 网络选项卡中，在任何子选项卡的预览或响应中，我都看不到任何数据。

我还尝试在成功功能中将结果图块记录在快速服务器中，

下面是输出，我得到undefined：

任何帮助或建议都非常感谢！先感谢您！

express mapbox postgis vector-tiles feature-clustering

2020-09-23T11:54:57.733

0 投票

1 回答

49 浏览

r - 围绕值的固定向量聚类

我有一个具有不同特征的品牌数据集，如卡路里、糖含量、纤维含量等，例如

使用dput()：

我想从中挑选 5 个品牌，比如品牌 1、2、3、4 和 5，然后形成与这 5 个品牌中的每一个具有相似特征的品牌集群或组，并保留所有其余不相似的品牌一个单独的集群。因此，我将有 1 个集群品牌 1，品牌 2 为 1，品牌 3 和品牌 4 和 5 类似。然后将有 1 个与这 5 个品牌中的任何一个都不相似的品牌集群。该特征可以是虚拟的或连续的。

我认为这应该很容易，但是，我在“R”中找不到任何包。

r vector cluster-analysis feature-clustering

2020-11-30T22:10:48.693

0 投票

1 回答

259 浏览

machine-learning - Sklearn k-means聚类（加权），确定每个特征的最佳样本权重？

sklearn中的K-means聚类，聚类的数量是预先知道的（它是2）。有多种功能。特征值最初没有分配任何权重，即它们被同等加权。然而，任务是为每个特征分配自定义权重，以获得最佳的聚类分离。如何确定每个特征的最佳样本权重（sample_weight），以获得两个集群的最佳分离？如果这对于 k-means 或 sklearn 是不可能的，我对任何替代聚类解决方案感兴趣，关键是我需要自动确定多元特征的适当权重的方法，以最大化聚类分离。

machine-learning scikit-learn cluster-analysis unsupervised-learning feature-clustering

2021-01-05T18:12:01.677

0 投票

0 回答

8 浏览

autoencoder - 低维聚类会比高维更准确吗？

我有一个关于潜在空间的问题。
在 GAN 或 AE 中，存在降低数据集维数的潜在空间。
我正在研究 KDD CUP 数据集。
从低维（潜在空间）提取的特征聚类是否有可能比高维更准确？
从低维提取的特征是指从 AE 编码器中提取的特征。
你怎么看待这件事？

如果你认为它可以，我该如何证明呢？
只是将它们都聚集在一起？并检查它们的准确性？
还是有其他方法？

autoencoder generative-adversarial-network dimensionality-reduction feature-clustering

2021-03-23T06:39:59.867

0 投票

0 回答

71 浏览

python - Python：使用文本、分类和日期特征进行聚类

我正在尝试对技术流程进行聚类。在我的数据集中，我有很多文本数据，我已经使用 TF-IDF 和 k-means 对其进行了聚类。现在我还想使用其他一些功能，例如部门名称（分类名称）和日期（或流程的天数）。

我对如何做到这一点有点困惑。我可以只制作一个包含所有功能的矩阵（用于描述的 TF-IDF 矩阵 + 部门（每个部门使用一个独特的数字）+ 持续时间的天数）？

这是我的数据集的示例：

我会感谢任何建议

python feature-selection unsupervised-learning feature-clustering

2021-03-25T16:51:54.990

0 投票

0 回答

17 浏览

r - 给定地理空间数据的配对位置

我有以下两个虚构的数据表。第一个是包含各个商店位置的纬度和经度、商店类型以及商店的通用数字 ID 的数据表。它看起来像这样：

第二个是参考位置表。这有一堆我想与我的数据配对的位置。即，我想在我的参考位置“x”公里范围内找到所有与我的参考位置相同类型的商店。

您可以将其视为类似于拥有一堆商店（杂货店、硬件、服装等）和一堆参考位置（杂货店总部、硬件、服装等）并询问：鉴于此参考点是一个“杂货店总部”，5公里范围内有哪些杂货店？是否有任何软件包可以使这样的任务比看起来更容易？对 R 和地理空间数据的新手有什么建议或提示吗？

r geospatial latitude-longitude feature-clustering

2021-04-27T13:06:43.927

0 投票

1 回答

209 浏览

k-means - k-mean 聚类 - 惯性只会变大

我正在尝试在人体关节的人体姿势数据集上使用来自faiss的 KMeans 聚类。我有 16 个身体部位，因此尺寸为 32。关节的缩放范围在 0 到 1 之间。我的数据集包含约 900.000 个实例。正如 faiss ( faiss_FAQ ) 所述：

根据经验，k-means 量化器在 20 次迭代和 1000 * k 个训练点之后没有一致的改进

将此应用于我的问题，我随机选择 50000 个实例进行训练。因为我想检查1 到 30 之间的集群k的数量。

现在到我的“问题”：

随着集群数量的增加，惯性直接增加（x轴上的n_cluster）：

我尝试改变迭代次数、重做次数、详细和球形，但结果保持不变或变得更糟。我不认为这是我实施的问题；我在一个带有 2D 数据和非常清晰的集群的小示例上对其进行了测试，它确实有效。

是数据只是聚集不良还是我错过了另一个问题/错误？也许是 0 和 1 之间的值的缩放？我应该尝试另一种方法吗？

k-means feature-clustering faiss

2021-05-15T20:36:45.067

0 投票

0 回答

126 浏览

python - 使用 NMF（非负矩阵分解）进行聚类

我正在研究交通数据以估计公共汽车的到达时间。我正在尝试使用 NMF 将路段（从第 I 站到下一站 I+1 的每个路段）聚类到 k 个集群中，其中每个集群具有基于交通拥堵和流量的相似旅行时间的路段。主矩阵 X 是 N M，其中 N 是路线中的段数，M 是白天的间隔次数，Xi,j 是链路 i 在间隔时间 j 的行程时间。我正在使用 Sklearn.decomposition.NMF 模型来查找 W H 矩阵，如下所示：

知道如何找到集群的数量以及与每个集群相关的段。

这是我得到的 X、W、H 矩阵：

python cluster-analysis nmf feature-clustering

2021-06-24T04:49:27.800

0 投票

0 回答

68 浏览

python - 如何仅在 numpy 数组的“一维”上应用 K-means++ 并按原样保留另一维

我在形状 (2048, 475)上应用了 k-means 算法。我使用了以下代码

我只想将 K-means 聚类应用于值为 475 的维度（从 475 生成 36 个集群）并按原样保留第一个维度。有人可以帮我解决这个问题吗？

python k-means shapes dimension feature-clustering

2021-07-07T11:47:09.983

问题标签 [feature-clustering]

概括

我的尝试

Reference