问题标签 [clustering-key]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
deep-learning - 路网聚类
我有一个表示道路交叉点和它们之间距离的数据集,请我想使用深度图学习对这些数据进行聚类,谁能给我简单的 python 代码来做到这一点,这是我的数据集图片链接:[1] :https ://i.stack.imgur.com/0Z8of.png
database - Cassandra 分区键和聚类列大小
cassandra如何计算partitioning key和clustering key的大小。例如,我们的表具有相对较大的分区键(UUID 和 UUID 的组合)以及较大的集群键
mydb/parent/6E219A7E21044B48B8816B931925CCDB/child1/29E6E709854D49CFAC72ECD5E1AEBFA3/ mydb/parent/6E219A7E21044B48B8816B931925CCDB/child2/29E6E709854D49CFAC72ECD5E1AEBFA4/ mydb/parent/6E219A7E21044B48B8816B931925CCDB/child3/29E6E709854D49CFAC72ECD5E1AEBFA5/
这里 PK - 6E219A7E21044B48B8816B931925CCDB 聚类列是 - /child1/29E6E709854D49CFAC72ECD5E1AEBFA3/
我们在第 n 级上有子级(现在我们正在做直到 100 级)
现在,当我们拥有大约 3 亿的海量数据时,拥有大键是否会对性能产生影响,以及对磁盘使用量的影响
query-optimization - 大表查询性能慢
我有一个包含 5600 万行的表。
该表每 5 分钟处理一次高负载的 UPSERTS,因为它正在从 KAFKA 加载流数据。每次加载大约 200-500k 更新。
当我针对其中一个时间戳列运行带有 ORDER BY 的 SELECT 时,需要 5-7 分钟才能返回结果。
我为该列尝试了 Cluster Key,但由于该表上的 DML 操作很高,并且列本身的基数很高,所以集群效率低且成本高。
到目前为止,唯一将查询时间显着减少到大约 15 秒的想法是将仓库大小从 Small 增加到 X-Large。
我不相信唯一的解决方案是增加仓库规模。这里的任何建议都会很棒!
cluster-analysis - 增强k的代码意味着使用红黑树的聚类算法以及如何检查它
有人可以帮助我使用读取黑树和最小堆的增强 k 均值算法吗?我也想知道如何通过实验检查它。
terraform - 如何使用 terraform gke 模块启用 gce_persistent_disk_csi_driver_config
我需要启用 gce_persistent_disk_csi_driver_config 这在使用 google_container_cluster 时很容易启用,就像这样(在addons_config
块下)
但是,我似乎无法在此处提供的模块 gke 中找到此配置的等效项
python - 如何使用 Elbow 方法获得自组织地图“SOM”的最佳 K?
我正在尝试使用 SOM 对我的数据进行聚类,首先我想获得最好的 K。但我需要一条线或其他东西来检测图中的最佳 K。我尝试使用 KElbowVisualizer() 但它总是显示错误:
YellowbrickTypeError:提供的模型不是聚类估计器;尝试使用分类器或回归分数可视化工具!
这是我的代码:
我还使用了 matplotlib 中的普通 Plot(),但我看不到 Best k,我的代码:
那么,请问我该如何在情节中或使用代码来做到这一点?
snowflake-cloud-data-platform - 雪花显示带有 cluster_by 的表
我可以show tables in <database name>
用来显示数据库中的所有表。返回的结果显示表是否启用了集群 - 显示cluster_by
列。有没有办法取回在 cluster_by 中具有值的所有表的列表?
show-tables的文档仅显示:
runtime - 具有多列的聚类表
我遇到了一个特定表的 ETL 运行时问题,该表具有约 100K 行和 650 列,其中大多数是整数(其他是字符串或日期)。该表由2个字符串列进行聚类,etl的逻辑主要用“Lag”、“Coalesce”、“Case”和“Least”命令构建。滞后由与表集群中的列相同的列进行分区。此表在 ETL 中的步骤的运行时间非常长。我对 Snowflake 的成本效益逻辑不是很熟悉,并且在不知道从哪里开始查找的情况下调试这个问题需要太长时间(因为运行查询大约需要一个小时!)关于从哪里开始/阅读可以帮助我解决的材料的任何建议这个问题更快?
sql - 合并语句中的聚类粒度字段会提高 bigquery 中的语句性能吗?
我有一个大目标表,应该每天与小表合并。假设粒度字段是 x,y,z 即
merge t1 using t2 on (t1.x=t2.x and t1.y=t2.y and t1.z=t2.z)
它会帮助我按粒度字段之一对 t1 表进行聚类吗?bigquery 知道如何在合并语句中使用聚类新奇吗?
我找不到任何关于它的官方文档。