问题标签 [feature-clustering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 基于模型参数的聚类
我一直在尝试基于 SGD 模型参数(系数和截距)进行聚类。coef_ 持有权重 w,intercept_ 持有 b。这些参数如何与一组学习模型上的聚类(KMedoids)一起使用?
所以我想基于每个学习模型clf.coef_ (array([[19.47419669, 9.73709834]]))
进行 聚类。clf.intercept_ (array([-10.]))
express - 如何在示例示例中从 ClusterBuster 矢量切片服务器接收切片数据?
概括
似乎这些家伙在ClusterBuster矢量切片服务器上的内置过滤、集群和缓存方面做得很好。我对这个看起来很有前途的项目感到非常兴奋,我很想尝试一下!
我正在开发一个项目,通过它们的集成从矢量切片服务器在 Google 地图上绘制Deck.gl图层 ( MVTLayer ) 。我想尝试集成并从 ClusterBuster 服务器提供一些保存在 PostGIS 中的聚类点。
预期结果:
- 我想从 ClusterBuster 矢量切片服务器接收切片数据,就像他们提供的示例示例一样。
实际结果:
- 提供的示例示例不起作用(地图上、Mapbox 上和带有 Deck.gl 的 Google 地图上都没有显示点)。
我的尝试
我尝试构建和运行提供的示例,但不知何故,我无法做到这一点。
我运行了提供的快速服务器clusterbuster/example/express.ts
,并尝试使用提供的 mapbox 示例clusterbuster/example/mapbox.html
(使用我的 mapbox 令牌)进行前端,但 mapbox 地图上没有出现任何内容(也没有使用我的 Deck.gl 示例出现在 Google 地图上)。
如中所述,clusterbuster/example/readme.md
我创建了一个.env
带有 PostGIS 连接设置的文件。
运行以下命令后:
我得到这个输出:
请求似乎没问题,返回状态 200,但来自 ClusterBuster 服务器的图块数据未定义,地图上没有任何内容(您的 Mapbox 或我的 Google 地图)。此外,奇怪的是所有平铺响应似乎都具有相同的大小 216 B。
结果是undefined
在express.ts
使用 VSCode Javascript 调试终端调试服务器文件并使用命令启动它之后ts-node .\example\express.ts
。
在 Chrome 网络选项卡中,在任何子选项卡的预览或响应中,我都看不到任何数据。
我还尝试在成功功能中将结果图块记录在快速服务器中,
任何帮助或建议都非常感谢!先感谢您!
machine-learning - Sklearn k-means聚类(加权),确定每个特征的最佳样本权重?
sklearn中的K-means聚类,聚类的数量是预先知道的(它是2)。有多种功能。特征值最初没有分配任何权重,即它们被同等加权。然而,任务是为每个特征分配自定义权重,以获得最佳的聚类分离。如何确定每个特征的最佳样本权重(sample_weight),以获得两个集群的最佳分离?如果这对于 k-means 或 sklearn 是不可能的,我对任何替代聚类解决方案感兴趣,关键是我需要自动确定多元特征的适当权重的方法,以最大化聚类分离。
autoencoder - 低维聚类会比高维更准确吗?
我有一个关于潜在空间的问题。
在 GAN 或 AE 中,存在降低数据集维数的潜在空间。
我正在研究 KDD CUP 数据集。
从低维(潜在空间)提取的特征聚类是否有可能比高维更准确?
从低维提取的特征是指从 AE 编码器中提取的特征。
你怎么看待这件事?
如果你认为它可以,我该如何证明呢?
只是将它们都聚集在一起?并检查它们的准确性?
还是有其他方法?
r - 给定地理空间数据的配对位置
我有以下两个虚构的数据表。第一个是包含各个商店位置的纬度和经度、商店类型以及商店的通用数字 ID 的数据表。它看起来像这样:
第二个是参考位置表。这有一堆我想与我的数据配对的位置。即,我想在我的参考位置“x”公里范围内找到所有与我的参考位置相同类型的商店。
您可以将其视为类似于拥有一堆商店(杂货店、硬件、服装等)和一堆参考位置(杂货店总部、硬件、服装等)并询问:鉴于此参考点是一个“杂货店总部”,5公里范围内有哪些杂货店?是否有任何软件包可以使这样的任务比看起来更容易?对 R 和地理空间数据的新手有什么建议或提示吗?
k-means - k-mean 聚类 - 惯性只会变大
我正在尝试在人体关节的人体姿势数据集上使用来自faiss的 KMeans 聚类。我有 16 个身体部位,因此尺寸为 32。关节的缩放范围在 0 到 1 之间。我的数据集包含约 900.000 个实例。正如 faiss ( faiss_FAQ ) 所述:
根据经验,k-means 量化器在 20 次迭代和 1000 * k 个训练点之后没有一致的改进
将此应用于我的问题,我随机选择 50000 个实例进行训练。因为我想检查1 到 30 之间的集群k的数量。
现在到我的“问题”:
随着集群数量的增加,惯性直接增加(x轴上的n_cluster):
我尝试改变迭代次数、重做次数、详细和球形,但结果保持不变或变得更糟。我不认为这是我实施的问题;我在一个带有 2D 数据和非常清晰的集群的小示例上对其进行了测试,它确实有效。
是数据只是聚集不良还是我错过了另一个问题/错误?也许是 0 和 1 之间的值的缩放?我应该尝试另一种方法吗?
python - 使用 NMF(非负矩阵分解)进行聚类
我正在研究交通数据以估计公共汽车的到达时间。我正在尝试使用 NMF 将路段(从第 I 站到下一站 I+1 的每个路段)聚类到 k 个集群中,其中每个集群具有基于交通拥堵和流量的相似旅行时间的路段。主矩阵 X 是 N M,其中 N 是路线中的段数,M 是白天的间隔次数,Xi,j 是链路 i 在间隔时间 j 的行程时间。我正在使用 Sklearn.decomposition.NMF 模型来查找 W H 矩阵,如下所示:
知道如何找到集群的数量以及与每个集群相关的段。
这是我得到的 X、W、H 矩阵:
python - 如何仅在 numpy 数组的“一维”上应用 K-means++ 并按原样保留另一维
我在形状 (2048, 475)上应用了 k-means 算法。我使用了以下代码
我只想将 K-means 聚类应用于值为 475 的维度(从 475 生成 36 个集群)并按原样保留第一个维度。有人可以帮我解决这个问题吗?