问题标签 [clustering-key]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
snowflake-cloud-data-platform - 雪花 - 聚类
聚类雪花表的最佳方法是什么
- 通过基于检索顺序以一定频率手动重新加载表的绝对聚类
- 创建集群键并打开自动重新集群,但大部分都将其挂起,仅在特定时间间隔运行它可能是通过查看表的分区扫描列
谢谢拉吉布
monitoring - 如何为 MATERIALIZED_VIEW_MAINTENANCE 和 AUTOMATIC_CLUSTERING 添加资源监视器?
我想添加一个资源监视器来监控 MATERIALIZED_VIEW_MAINTENANCE 和 AUTOMATIC_CLUSTERING 的成本。如果这些成本高于特定阈值,则应发送电子邮件。
有什么办法吗?我只能选择 ACCOUNT 或 WAREHOUSES 来监控。
谢谢, VXThosch
snowflake-cloud-data-platform - 聚类如何帮助 Snowflake 中的查询修剪?
我有一个聚集在s_nation_key上的表,如下所示。
现在我已经向它添加了数据
当我检查底层微分区中的数据分布时,它看起来不错。
我再次为特定的 s_nation_key 设置加载了更多记录,如下所示。
现在当我再次检查聚类信息时,这看起来也不错。现在总共有 4 个微分区,每个不同的 S_NATIONKEY 值集被加载到单独的分区中,范围没有重叠。所以所有微分区的聚类深度为 1。
现在根据 Snowflake 文档和查询修剪的概念,当我们搜索属于一个 cluster_key 值的记录时,它应该只扫描将持有该 cluster_key 值的特定微分区(基于每个微的最小/最大值范围分割)。但就我而言,它正在扫描所有底层微分区(如下所示)
. 根据上述查询计划统计信息,它正在扫描所有分区,而不是扫描 1。
我在这里遗漏了什么吗?它背后的逻辑是什么?请帮助我理解 Snowflake 中的这种情况。
谢谢,@Himanshu
database-performance - Snowflake: clustering on datetime key stored in variant field does not work / do partition pruning
We are ingesting data into Snowflake via the kafka connector. To increase the data read performance / scan less partitions we decided to add a clustering key to a a key / combination of keys stored in the RECORD_CONTENT variant field.
The data in the RECORD_CONTENT field looks like this:
Now, the issue is that clustering on a datetime col like SourceDateTime does NOT work:
...while clustering on a field like Integerfield DOES work:
Not working means: when using a filter on RECORD_CONTENT:jsonSrc:loadDts::datetime, it has no effect on the partitions scanned, while filtering on RECORD_CONTENT:jsonSrc:Integerfield::int does perform partition pruning.
What is wrong here? Is this a bug?
Note that:
- There is enough data to do meaningful clustering on RECORD_CONTENT:jsonSrc:loadDts::datetime
- I validated clustering on RECORD_CONTENT:jsonSrc:loadDts::datetime working by making a copy of the raw table, with RECORD_CONTENT:jsonSrc:loadDts::datetime in a seperate column loadDtsCol and then adding a similar clustering key on that column: to_date(loadDtsCol).
oracle - Oracle Count 基于 key 的动态组数
考虑表格:
我想values
根据id
列来计算组。结果将如下所示:
请注意,列的基数value
是动态的。
我尝试过使用一些子查询进行旋转,但我不确定我是否以正确的方式进行。
我感谢提供的任何帮助。
cassandra - cassandra 主键导致限制的地方
我想使用 cassandra 作为数据库来存储消息,而在我的模型中消息是按通道聚合的。消息的3个主要重要领域:
- 频道 ID
- 由...制作
- message_id(唯一)
主要的读取/获取 API 是通过按 . 排序的通道获取消息created_by
。另外,我有一个由channel_id
+更新的小规模消息message_id
。
所以我的问题是关于 primary_key 定义。如果我要定义它(channel_id,created_by)
,我是否可以UPDATE
使用WHERE
cLause 之类的channel_id=X and message_id=XX
,即使message_id
它不在主键中(我确实为查询提供了分区键)?
如果没有,如果我将像这样定义主键,(channel_id,created_by, message_id)
我将能够使用 where Cause 仅使用 1 个聚类列进行读取,(channel_id,created_by)
并使用 where Cause channel_id
+进行更新message_id
?
谢谢
cassandra - Cassandra:可以使用布尔值列作为集群列(作为主键的一部分)吗?
对于 Cassandra 数据库系统,是否可以使用布尔值列作为集群列(作为主键的一部分)?该列当然不是分区键,而只是一堆集群列中的一个。
对性能或其他考虑是否有负面影响?
python-3.x - 我怎样才能派生_clusters_from_medoids(3,数据,10)
我试图通过这个函数从 medoids 派生集群,但它不起作用 clusters = derived_clusters_from_medoids(3, data, 10)
matlab - MATLAB图像处理KMEANS分割
读入图像 (soccer.jpg) 并将其保存在名为 football 的数组中。实现 kmeans 算法将 inputIm 划分为 K 个簇。这个函数的原型应该是:
函数[cluster_map, center, dist] = MYKMEANS(inputIm, K)
其中 inputIm 是原始 RGB 彩色图像,K 是簇号,cluster_map 是与 inputIm 大小相同的单通道图像,cluster_map 中每个像素的值是其分配的簇索引,center 是得到的簇中心,应该是 K -by-3 矩阵,dist 是平均集群内欧几里得距离除以特征空间中的平均集群间欧几里得距离。
调用 MYKMEANS 函数将图像足球聚类为 K=6 簇,然后使用颜色可视化返回的 cluster_map。对于 inputIm 图像中的每个像素,只需将其 R、G、B 值作为其 3 维特征进行聚类。例如,如果 K=6,则 cluster_map 可视化应该类似于以下可视化:
注意:本题不得使用Matlab内置函数“kmeans”或任何其他聚类函数或第三方聚类包,违规记0分。调用MYKMEANS函数后,得到cluster_map,然后需要用不同的颜色可视化cluster_map来显示不同的cluster index,例如:黄色代表cluster id=1,粉红色代表cluster id=2,...等。 Original Image result图片