问题标签 [clustering-key]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - 在 Cassandra 中按用户名排序
假设我有这张桌子:
我想按用户名对用户进行排序,这是不可能的,因为只能通过聚类列进行排序。如何按用户名订购我的用户?
我需要按用户名查询用户,这就是为什么用户名是索引列的原因。
这里的正确方法是什么?
performance - 在集群键上使用 IN 子句的 Cassandra 性能
让我们考虑下表
在 Cassandra 2.2 之前,不可能进行这样的查询:
实际上,只有当前一个键受到相等关系的限制时,才可以限制集群键。
自 Cassandra 2.2 以来,这是可能的,但有人知道这样做是否有一些警告吗?可以预期什么样的性能,就像没有 IN 子句(或接近)一样?它是否像相等关系一样缩放?
更多,Cassandra 3.X 新存储引擎可能已经考虑到优化此类请求......如果有人对此有想法:)
谢谢 !
cassandra - Cassandra 集群密钥顺序
所以我有一张桌子,看起来像:
我们依靠这个表来按clusterkey
for分页正确排序。
问题是:当从 cassandra 返回结果时,看起来它们是根据它们的 ASCII 值排序的,而不是逻辑 AZ 排序。- 对于观看它的人来说,这在程序上是有意义的,但在逻辑上是不合理的。
所以一个查询:
SELECT clusterkey FROM schema.table WHERE partitionkey = 1 ORDER BY clusterkey ASC;
得到左边的结果,当我期待右边的结果时
我知道我们可以将数据更改为全部小写/大写以正确排序,但这会改变数据的外观。- 这绝对是不想要的。
是否可以选择更改当前聚类顺序的方法?
- 或另一种逻辑排序方式?
cluster-computing - 正确的手动集群,使它们更相关
我有集群。它们是手动完成的。我知道机器学习算法旨在有效地分割配置文件,但我不会放弃我拥有的集群。我只想稍微改变它们以使它们相关。当然,结果不会像 K-means 输出那么好。您是否知道任何来自现有集群并尝试优化/纠正它们的方法?非常感谢
cassandra - 在 Cassandra 中订购
是的,所以我已经研究了一段时间,发现人们在 Cassandra 中排序数据时遇到问题并不少见,但我仍然无法弄清楚为什么我的选择没有以正确的方式排序。所以这是我的表创建查询:
作为隐含的,我想按性别>姓氏>电子邮件对我的数据进行排序。
然后我通过 CVN 导入数据,因为我正在从 PostgreSQL 表中导入数据。这是我正在使用的 SELECT:
我在查询中忘记了要完成的订购的内容,还是我的建模错误?
cassandra - 仅使用分区键的查询性能
如果在查询同时包含分区键和集群键的表时只提供分区键,性能会受到影响吗?
例如,对于具有分区键 p1 和集群键 c1 的表,将
效率低于
我的目标是使用 p1 = 'abc' 获取所有行。
cluster-analysis - 为什么 K-means 如此用于文档聚类?
有人可以向我解释为什么 K-means 算法被如此使用(尤其是在文档聚类中),尽管它有缺陷,而不是 K-medoids,例如 CAH、SOM 等?
python-3.x - 定义一个使用 3 个参数自动生成 k-means 聚类图的函数
我有各种代码行来生成 k-means 聚类图。我不想为各种不同的数据集重复代码,而是想创建一个自动执行此操作的函数。
我设想它通过 3 个参数来工作 - x、y 和 z。
以下是我到目前为止所得到的。我真的很欢迎任何帮助。
我在 Jupyter Notebook 和 Pandas、Matplotlib、sklearn 包中使用 Python 3。
x = 选择的相关性(移动平均数据集 - 绘制在 x 轴上)
y = 选择的索引变化(y 轴数据集)
z = 对应的子集(包含不同 x 和 y 组合的各种数据帧)
x、y 和 z 变量的示例如下:
我试图到达可以运行函数“make_cluster(x,y,z)”的位置,当它运行时,它返回相关参数的聚类图。
无论作为参数输入什么,我都希望在出现相应“x”、“y”和“z”的代码中反映出来。
希望这是有道理的!
python - 我想知道如何将这种聚类算法应用于我自己的数据?
我想用我自己的数据替换虹膜数据。请告诉我要遵循哪些步骤来做到这一点?谢谢