问题标签 [clustering-key]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

50 问题

0 投票

0 回答

14 浏览

database - 如何在 Cassandra 中使用聚类列进行排序

我正在尝试根据时间戳 desc 对所有表进行排序，但它无法正常工作。这是我创建表的代码和我得到的结果：

这是关于行如何存储在表中的打印

我插入以测试 2017 年的这些行应该位于表格的底部，而最近的行应该位于顶部。我需要改变什么才能实现这一点？它正在订购但不正确，也许与主键有关？

2021-05-09T12:56:39.190

0 投票

0 回答

17 浏览

deep-learning - 路网聚类

我有一个表示道路交叉点和它们之间距离的数据集，请我想使用深度图学习对这些数据进行聚类，谁能给我简单的 python 代码来做到这一点，这是我的数据集图片链接：[1] ：https ://i.stack.imgur.com/0Z8of.png

deep-learning clustering-key

2021-05-27T09:12:57.680

0 投票

1 回答

62 浏览

database - Cassandra 分区键和聚类列大小

cassandra如何计算partitioning key和clustering key的大小。例如，我们的表具有相对较大的分区键（UUID 和 UUID 的组合）以及较大的集群键

mydb/parent/6E219A7E21044B48B8816B931925CCDB/child1/29E6E709854D49CFAC72ECD5E1AEBFA3/ mydb/parent/6E219A7E21044B48B8816B931925CCDB/child2/29E6E709854D49CFAC72ECD5E1AEBFA4/ mydb/parent/6E219A7E21044B48B8816B931925CCDB/child3/29E6E709854D49CFAC72ECD5E1AEBFA5/

这里 PK - 6E219A7E21044B48B8816B931925CCDB 聚类列是 - /child1/29E6E709854D49CFAC72ECD5E1AEBFA3/

我们在第 n 级上有子级（现在我们正在做直到 100 级）

现在，当我们拥有大约 3 亿的海量数据时，拥有大键是否会对性能产生影响，以及对磁盘使用量的影响

database cassandra uuid partitioning clustering-key

2021-07-13T08:15:28.597

0 投票

2 回答

169 浏览

query-optimization - 大表查询性能慢

我有一个包含 5600 万行的表。

该表每 5 分钟处理一次高负载的 UPSERTS，因为它正在从 KAFKA 加载流数据。每次加载大约 200-500k 更新。

当我针对其中一个时间戳列运行带有 ORDER BY 的 SELECT 时，需要 5-7 分钟才能返回结果。

我为该列尝试了 Cluster Key，但由于该表上的 DML 操作很高，并且列本身的基数很高，所以集群效率低且成本高。

到目前为止，唯一将查询时间显着减少到大约 15 秒的想法是将仓库大小从 Small 增加到 X-Large。

我不相信唯一的解决方案是增加仓库规模。这里的任何建议都会很棒！

query-optimization snowflake-cloud-data-platform clustering-key

2021-07-18T11:42:09.583

0 投票

0 回答

26 浏览

cluster-analysis - 增强k的代码意味着使用红黑树的聚类算法以及如何检查它

有人可以帮助我使用读取黑树和最小堆的增强 k 均值算法吗？我也想知道如何通过实验检查它。

cluster-analysis k-means clustering-key

2021-10-13T09:53:28.127

0 投票

1 回答

40 浏览

terraform - 如何使用 terraform gke 模块启用 gce_persistent_disk_csi_driver_config

我正在使用此处提供的 Terraform GKE 模块

我需要启用 gce_persistent_disk_csi_driver_config 这在使用 google_container_cluster 时很容易启用，就像这样（在addons_config块下）

但是，我似乎无法在此处提供的模块 gke 中找到此配置的等效项

terraform google-kubernetes-engine terraform-provider-gcp clustering-key

2021-10-25T10:29:23.697

0 投票

1 回答

36 浏览

python - 如何使用 Elbow 方法获得自组织地图“SOM”的最佳 K？

我正在尝试使用 SOM 对我的数据进行聚类，首先我想获得最好的 K。但我需要一条线或其他东西来检测图中的最佳 K。我尝试使用 KElbowVisualizer() 但它总是显示错误：

YellowbrickTypeError：提供的模型不是聚类估计器；尝试使用分类器或回归分数可视化工具！

这是我的代码：

我还使用了 matplotlib 中的普通 Plot()，但我看不到 Best k，我的代码：

这就是我从 Plot() 得到的情节

那么，请问我该如何在情节中或使用代码来做到这一点？

python machine-learning plot yellowbrick clustering-key

2021-11-09T02:02:10.487

0 投票

1 回答

43 浏览

snowflake-cloud-data-platform - 雪花显示带有 cluster_by 的表

我可以show tables in <database name>用来显示数据库中的所有表。返回的结果显示表是否启用了集群 - 显示cluster_by列。有没有办法取回在 cluster_by 中具有值的所有表的列表？

show-tables的文档仅显示：

snowflake-cloud-data-platform clustering-key

2021-11-28T15:37:31.103

0 投票

1 回答

35 浏览

runtime - 具有多列的聚类表

我遇到了一个特定表的 ETL 运行时问题，该表具有约 100K 行和 650 列，其中大多数是整数（其他是字符串或日期）。该表由2个字符串列进行聚类，etl的逻辑主要用“Lag”、“Coalesce”、“Case”和“Least”命令构建。滞后由与表集群中的列相同的列进行分区。此表在 ETL 中的步骤的运行时间非常长。我对 Snowflake 的成本效益逻辑不是很熟悉，并且在不知道从哪里开始查找的情况下调试这个问题需要太长时间（因为运行查询大约需要一个小时！）关于从哪里开始/阅读可以帮助我解决的材料的任何建议这个问题更快？

runtime snowflake-cloud-data-platform clustering-key

2021-12-19T18:34:28.787

0 投票

0 回答

25 浏览

sql - 合并语句中的聚类粒度字段会提高 bigquery 中的语句性能吗？

我有一个大目标表，应该每天与小表合并。假设粒度字段是 x,y,z 即 merge t1 using t2 on (t1.x=t2.x and t1.y=t2.y and t1.z=t2.z)

它会帮助我按粒度字段之一对 t1 表进行聚类吗？bigquery 知道如何在合并语句中使用聚类新奇吗？

我找不到任何关于它的官方文档。

sql performance merge google-bigquery clustering-key

2022-01-20T06:30:44.917

1 2 3 4 5 6 7 8 9 10

问题标签 [clustering-key]

Reference