问题标签 [clustering-key]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
109 浏览

cassandra - 在 Cassandra 中按用户名排序

假设我有这张桌子:

我想按用户名对用户进行排序,这是不可能的,因为只能通过聚类列进行排序。如何按用户名订购我的用户?

我需要按用户名查询用户,这就是为什么用户名是索引列的原因。

这里的正确方法是什么?

0 投票
1 回答
861 浏览

performance - 在集群键上使用 IN 子句的 Cassandra 性能

让我们考虑下表

在 Cassandra 2.2 之前,不可能进行这样的查询:

实际上,只有当前一个键受到相等关系的限制时,才可以限制集群键。

自 Cassandra 2.2 以来,这是可能的,但有人知道这样做是否有一些警告吗?可以预期什么样的性能,就像没有 IN 子句(或接近)一样?它是否像相等关系一样缩放?

更多,Cassandra 3.X 新存储引擎可能已经考虑到优化此类请求......如果有人对此有想法:)

谢谢 !

0 投票
2 回答
373 浏览

cassandra - Cassandra 集群密钥顺序

所以我有一张桌子,看起来像:

我们依靠这个表来按clusterkeyfor分页正确排序。
问题是:当从 cassandra 返回结果时,看起来它们是根据它们的 ASCII 值排序的,而不是逻辑 AZ 排序。- 对于观看它的人来说,这在程序上是有意义的,但在逻辑上是不合理的。

所以一个查询:
SELECT clusterkey FROM schema.table WHERE partitionkey = 1 ORDER BY clusterkey ASC;
得到左边的结果,当我期待右边的结果时

我知道我们可以将数据更改为全部小写/大写以正确排序,但这会改变数据的外观。- 这绝对是不想要的。

是否可以选择更改当前聚类顺序的方法?
- 或另一种逻辑排序方式?

0 投票
1 回答
19 浏览

cluster-computing - 正确的手动集群,使它们更相关

我有集群。它们是手动完成的。我知道机器学习算法旨在有效地分割配置文件,但我不会放弃我拥有的集群。我只想稍微改变它们以使它们相关。当然,结果不会像 K-means 输出那么好。您是否知道任何来自现有集群并尝试优化/纠正它们的方法?非常感谢

0 投票
1 回答
54 浏览

cassandra - 在 Cassandra 中订购

是的,所以我已经研究了一段时间,发现人们在 Cassandra 中排序数据时遇到问题并不少见,但我仍然无法弄清楚为什么我的选择没有以正确的方式排序。所以这是我的表创建查询:

作为隐含的,我想按性别>姓氏>电子邮件对我的数据进行排序。

然后我通过 CVN 导入数据,因为我正在从 PostgreSQL 表中导入数据。这是我正在使用的 SELECT:

我在查询中忘记了要完成的订购的内容,还是我的建模错误?

0 投票
1 回答
389 浏览

cassandra - 仅使用分区键的查询性能

如果在查询同时包含分区键和集群键的表时只提供分区键,性能会受到影响吗?

例如,对于具有分区键 p1 和集群键 c1 的表,将

效率低于

我的目标是使用 p1 = 'abc' 获取所有行。

0 投票
0 回答
91 浏览

cluster-analysis - 为什么 K-means 如此用于文档聚类?

有人可以向我解释为什么 K-means 算法被如此使用(尤其是在文档聚类中),尽管它有缺陷,而不是 K-medoids,例如 CAH、SOM 等?

0 投票
0 回答
87 浏览

python-3.x - 定义一个使用 3 个参数自动生成 k-means 聚类图的函数

我有各种代码行来生成 k-means 聚类图。我不想为各种不同的数据集重复代码,而是想创建一个自动执行此操作的函数。

我设想它通过 3 个参数来工作 - x、y 和 z。

以下是我到目前为止所得到的。我真的很欢迎任何帮助。

我在 Jupyter Notebook 和 Pandas、Matplotlib、sklearn 包中使用 Python 3。

x = 选择的相关性(移动平均数据集 - 绘制在 x 轴上)

y = 选择的索引变化(y 轴数据集)

z = 对应的子集(包含不同 x 和 y 组合的各种数据帧)

x、y 和 z 变量的示例如下:

我试图到达可以运行函数“make_cluster(x,y,z)”的位置,当它运行时,它返回相关参数的聚类图。

无论作为参数输入什么,我都希望在出现相应“x”、“y”和“z”的代码中反映出来。

希望这是有道理的!

0 投票
2 回答
86 浏览

python - 我想知道如何将这种聚类算法应用于我自己的数据?

我想用我自己的数据替换虹膜数据。请告诉我要遵循哪些步骤来做到这一点?谢谢

0 投票
0 回答
121 浏览

python - 我想知道 dbscan (sklearn) 算法的 x 和 y 轴标签

https://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html#sphx-glr-auto-examples-cluster-plot-dbscan-py

这是 sklearn dbcsan 的链接。