问题标签 [clustering-key]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
187 浏览

jdbc - WSO2 实例配置

我正在尝试使用wso2am-2.0.0. 我没有创建数据库,也没有进行相关配置。但是,在运行我的bin/wsoserver.shthrows 数据库异常错误。

org.h2.jdbc.JdbcSQLException:数据库可能已在使用中:“被另一个进程锁定”。可能的解决方案:关闭所有其他连接;使用服务器模式;SQL 语句:

[2016-12-05 23:30:49,842] 错误 - 激活器无法启动用户管理器核心包 org.wso2.carbon.user.core.UserStoreException:无法初始化领域。

原因:org.wso2.carbon.user.core.UserStoreException:数据库错误 - 数据库可能已在使用中:“被另一个进程锁定”。可能的解决方案:关闭所有其他连接;使用服务器模式;SQL 语句:

原因:org.h2.jdbc.JdbcSQLException:数据库可能已在使用中:“被另一个进程锁定”。可能的解决方案:关闭所有其他连接;使用服务器模式;SQL 语句:

0 投票
1 回答
420 浏览

python - Cassandra 抽象模型不能用聚类顺序定义 primary_key

我在 python 中创建

这给出了错误

如果我发表评论,clusturing_order那么它的工作正常。

有什么方法可以clusting_orderabstract类中定义吗?

我必须created_timestamp在每个模型中创建,所以我不能将它移动到每个模型。

0 投票
1 回答
350 浏览

cassandra - 为 Cassandra 的聚类列定义自定义比较器

有没有办法让我使用自定义比较器函数对 cassandra 中的聚类键进行排序。

我的表定义类似于以下内容:

在这里,data_id将用作聚类列。我想知道是否可以定义一个自定义比较器来指示data_id写入磁盘的顺序。

提前感谢您的帮助:)。

0 投票
1 回答
162 浏览

clustering-key - 产品评级的情绪分析

Hy,我正在从事基于产品评级情感分析的项目。 我有好词和否定词的数据集。当任何用户在网站上评论产品时,它会自动评分为 10 所以我对集群技术感到困惑,并且之前解决了我的问题Plzzx 帮助在此先感谢。

0 投票
1 回答
371 浏览

cluster-analysis - 相似矩阵的聚类技术

根据他们选择的数码相机的功能,我有 128 位受访者的二进制数据。其中“1”表示选择特征,“0”表示未选择特征。我在列中有 92 个产品特征,在行中有响应者。每个受访者从 92 个特征中准确选择了 20 个特征。我想根据他们选择的功能创建不同用户组的集群。我在这些二进制数据上尝试了一些聚类算法,如模糊聚类和分层算法,但它没有给我任何好的结果,而且创建的聚类非常糟糕。所以现在我已经将骰子系数相似性矩阵应用于响应者的数据,这基本上给了我每个响应者与所有其他响应者的相似度得分。是否可以在这个相似度矩阵上应用聚类技术来获得好的聚类?还有哪些聚类技术可以应用在这个用户相似度矩阵上,这样我就可以根据他们的相似度分数来识别用户的聚类。任何建议和评论将不胜感激

0 投票
1 回答
143 浏览

sorting - Cassandra 排序和不断变化的聚类键

对于需要按可以修改的键对数据进行排序的情况,我有一个数据建模问题。所以,假设我们有一个用户表

现在我可以通过 dept_id 查询 cassandra 以获取所有用户。

如果我想查询一个部门的所有用户,按 mod_date 排序怎么办?

所以,一种方法是

但是,每次更新用户名时,mod_date 都会发生变化。所以它不能成为集群键的一部分。

尝试 1:
不更新行,而是为每次更新创建新记录。

因此,假设用户 foo 的记录如下所示 {'dept_id1',TimeStamp1','user_id1','foo'} ,然后名称更改为 'bar' ,然后更改为 'baz' 。在这种情况下,我们将另一行添加到表中,所以它看起来像

现在我们可以得到一个部门中的所有用户,按 mod_date 排序,但它提出了一个不同的问题。

返回的数据重复

.

尝试 2: 添加另一列来识别头记录,就像链表一样

每次发生更新时,它都会添加一行并添加新记录的 PK。

并为“next_record”列添加二级索引。

现在我可以支持获取一个部门中的所有用户,按 mod_date 排序

select * from USERS where dept_id=':dept' AND next_record='HEAD' order by mod_date。

但它看起来相当复杂的解决方案,也许我遗漏了一些东西,一个更简单的解决方案..

另一个选项是删除和插入,但对于高频更改,我认为 Cassandra 存在墓碑问题。

欢迎提出建议/反馈。谢谢 !

0 投票
1 回答
326 浏览

python - 默认使用 uuid 时的 Cassandra TimeUUID 泛洪文件描述符

我有 Cassandra 模型

最近应用程序命中uuid1 创建不关闭文件 - 命中文件描述符限制。我试图找到解决方案,但似乎我认为哪些选项可能行不通

  • uuid1默认替换为uuid4,但TimeUUID需要时间部分,并且只uuid1提供。
  • 替换uuid1cassandra.util.uuid_from_time(time.time()), 当检查 和 的代码时uuid1uuid_from_time两者看起来相同,所以也不能解决问题。

最后一个选项是替换TimeUUIDTimestamp类型,但此created_at列是primary_keyand clustering_order,所以不知道我能不能这样做。

我的列族已经有 1,000,000 多个数据,所以我不能直接删除它们。

我也想知道,使用TimeUUID代替的好处是timestamp什么?

0 投票
1 回答
610 浏览

centos7 - 在多个服务器之间同步 GnuPG 私钥以实现水平扩展

我将 CentOS 7 和 GnuPG 2.0 用于我的一个使用加密和解密的应用程序。

现在我正在尝试在名为服务器 A 和服务器 B 的两台服务器上水平扩展我的应用程序。

假设应用程序在服务器 A 上创建了一个私钥/公钥对,我如何在服务器 B 中共享相同的密钥集,反之亦然,以便应用程序可以从任一服务器访问相同的密钥集?

0 投票
1 回答
734 浏览

sorting - Cassandra - 为分页解决方案排序数据?

因此,我们有一个使用 .NET 和 Cassandra / Spark 组合的 Web 应用程序来生成在线报告。

目前,我们从 Cassandra 获取所有相关数据,并通过一个 JavaScript 插件将其呈现在一个表格中,该插件也对其进行排序(取决于单击的列)。

例如

然而,返回的数据变得越来越大:因此我们需要开发某种分页来避免较长的请求和前端加载时间。
最有可能用户排序的列是时间,不幸的是它不是集群键的一部分,因此不能使用该ORDER BY命令。

我们提出的一个解决方案是创建一个具有相同数据的“排名”表,例如

...但这会给 Spark 带来更多的负载,因为为“时间”收集的数据会不断增加,因此会改变排名。

我们还可以在服务器端对结果进行排序,通过 ajax 调用缓存和检索有限的数据,但是这种方法会显着增加服务器上的内存负载(特别是如果许多用户同时使用系统)。

也许我想太多了,可以使用一个简单的 cassandra 表结构来代替。解决这个问题的最佳方法是什么?


编辑(2017 年 12 月 15 日):在 Cassandra 中遇到了一个名为Materialized Views的东西,它似乎能够将非键控列作为集群键排序。这对于获取最高行数排序但不是分页非常有用。


编辑(2017 年 12 月 18 日):Datastax C# 驱动程序允许对返回的结果进行分页。分页状态可以被保存并在需要时继续。这与物化视图一起将完成分页。


编辑(2017 年 12 月 19 日) 还没有真正通过 spark 深入研究数据帧的坑——一旦设置,它们的排序和过滤速度非常快——像 SQL 一样对待它。
关键词:一次设置。发现他们平均需要大约 7 秒来创建。


编辑(2018 年 3 月 29 日) 使用当前解决方案遇到障碍(物化视图 + 限制结果)。物化视图需要不断更新,导致大量墓碑。这意味着:集群性能不佳。
请参阅更新时按非聚类键墓碑排序结果。
回到广场 1.叹息


编辑(2018 年 8 月 22 日) 通过大力研究:看来要走的路是实施Solr解决方案。Solr 允许强大且快速的索引搜索以及分页。这篇博客文章“避免扩展 Cassandra的陷阱”是沃尔玛开发人员的一个很好的资源,它解释了他们如何使用“分片”进行分页的解决方案。

0 投票
1 回答
78 浏览

jmeter - 如果通过 jmeter 发送请求,则在 glassfish 集群中,请求不会隔离到不同的服务器

对于应用服务器设置为玻璃鱼集群。我已经通过 jmeter 发送了请求,并且所有请求都只命中了一台服务器。预计请求应该被分发到集群中的多个服务器。但是,如果手动发送请求集群正在工作。请帮忙解决这个问题