问题标签 [clustering-key]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
14 浏览

database - 如何在 Cassandra 中使用聚类列进行排序

我正在尝试根据时间戳 desc 对所有表进行排序,但它无法正常工作。这是我创建表的代码和我得到的结果:

这是关于行如何存储在表中的打印

我插入以测试 2017 年的这些行应该位于表格的底部,而最近的行应该位于顶部。我需要改变什么才能实现这一点?它正在订购但不正确,也许与主键有关?

0 投票
0 回答
17 浏览

deep-learning - 路网聚类

我有一个表示道路交叉点和它们之间距离的数据集,请我想使用深度图学习对这些数据进行聚类,谁能给我简单的 python 代码来做到这一点,这是我的数据集图片链接:[1] :https ://i.stack.imgur.com/0Z8of.png

0 投票
1 回答
62 浏览

database - Cassandra 分区键和聚类列大小

cassandra如何计算partitioning key和clustering key的大小。例如,我们的表具有相对较大的分区键(UUID 和 UUID 的组合)以及较大的集群键

mydb/parent/6E219A7E21044B48B8816B931925CCDB/child1/29E6E709854D49CFAC72ECD5E1AEBFA3/ mydb/parent/6E219A7E21044B48B8816B931925CCDB/child2/29E6E709854D49CFAC72ECD5E1AEBFA4/ mydb/parent/6E219A7E21044B48B8816B931925CCDB/child3/29E6E709854D49CFAC72ECD5E1AEBFA5/

这里 PK - 6E219A7E21044B48B8816B931925CCDB 聚类列是 - /child1/29E6E709854D49CFAC72ECD5E1AEBFA3/

我们在第 n 级上有子级(现在我们正在做直到 100 级)

现在,当我们拥有大约 3 亿的海量数据时,拥有大键是否会对性能产生影响,以及对磁盘使用量的影响

0 投票
2 回答
169 浏览

query-optimization - 大表查询性能慢

我有一个包含 5600 万行的表。

该表每 5 分钟处理一次高负载的 UPSERTS,因为它正在从 KAFKA 加载流数据。每次加载大约 200-500k 更新。

当我针对其中一个时间戳列运行带有 ORDER BY 的 SELECT 时,需要 5-7 分钟才能返回结果。

我为该列尝试了 Cluster Key,但由于该表上的 DML 操作很高,并且列本身的基数很高,所以集群效率低且成本高。

到目前为止,唯一将查询时间显着减少到大约 15 秒的想法是将仓库大小从 Small 增加到 X-Large。

我不相信唯一的解决方案是增加仓库规模。这里的任何建议都会很棒!

0 投票
0 回答
26 浏览

cluster-analysis - 增强k的代码意味着使用红黑树的聚类算法以及如何检查它

有人可以帮助我使用读取黑树和最小堆的增强 k 均值算法吗?我也想知道如何通过实验检查它。

0 投票
1 回答
40 浏览

terraform - 如何使用 terraform gke 模块启用 gce_persistent_disk_csi_driver_config

我正在使用此处提供的 Terraform GKE 模块

我需要启用 gce_persistent_disk_csi_driver_config 这在使用 google_container_cluster 时很容易启用,就像这样(在addons_config块下)

但是,我似乎无法在此处提供的模块 gke 中找到此配置的等效项

0 投票
1 回答
36 浏览

python - 如何使用 Elbow 方法获得自组织地图“SOM”的最佳 K?

我正在尝试使用 SOM 对我的数据进行聚类,首先我想获得最好的 K。但我需要一条线或其他东西来检测图中的最佳 K。我尝试使用 KElbowVisualizer() 但它总是显示错误:

YellowbrickTypeError:提供的模型不是聚类估计器;尝试使用分类器或回归分数可视化工具!

这是我的代码:

我还使用了 matplotlib 中的普通 Plot(),但我看不到 Best k,我的代码:

这就是我从 Plot() 得到的情节

那么,请问我该如何在情节中或使用代码来做到这一点?

0 投票
1 回答
43 浏览

snowflake-cloud-data-platform - 雪花显示带有 cluster_by 的表

我可以show tables in <database name>用来显示数据库中的所有表。返回的结果显示表是否启用了集群 - 显示cluster_by列。有没有办法取回在 cluster_by 中具有值的所有表的列表?

show-tables的文档仅显示:

0 投票
1 回答
35 浏览

runtime - 具有多列的聚类表

我遇到了一个特定表的 ETL 运行时问题,该表具有约 100K 行和 650 列,其中大多数是整数(其他是字符串或日期)。该表由2个字符串列进行聚类,etl的逻辑主要用“Lag”、“Coalesce”、“Case”和“Least”命令构建。滞后由与表集群中的列相同的列进行分区。此表在 ETL 中的步骤的运行时间非常长。我对 Snowflake 的成本效益逻辑不是很熟悉,并且在不知道从哪里开始查找的情况下调试这个问题需要太长时间(因为运行查询大约需要一个小时!)关于从哪里开始/阅读可以帮助我解决的材料的任何建议这个问题更快?

0 投票
0 回答
25 浏览

sql - 合并语句中的聚类粒度字段会提高 bigquery 中的语句性能吗?

我有一个大目标表,应该每天与小表合并。假设粒度字段是 x,y,z 即 merge t1 using t2 on (t1.x=t2.x and t1.y=t2.y and t1.z=t2.z)

它会帮助我按粒度字段之一对 t1 表进行聚类吗?bigquery 知道如何在合并语句中使用聚类新奇吗?

我找不到任何关于它的官方文档。