问题标签 [clustering-key]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jdbc - WSO2 实例配置
我正在尝试使用wso2am-2.0.0
. 我没有创建数据库,也没有进行相关配置。但是,在运行我的bin/wsoserver.sh
throws 数据库异常错误。
org.h2.jdbc.JdbcSQLException:数据库可能已在使用中:“被另一个进程锁定”。可能的解决方案:关闭所有其他连接;使用服务器模式;SQL 语句:
[2016-12-05 23:30:49,842] 错误 - 激活器无法启动用户管理器核心包 org.wso2.carbon.user.core.UserStoreException:无法初始化领域。
原因:org.wso2.carbon.user.core.UserStoreException:数据库错误 - 数据库可能已在使用中:“被另一个进程锁定”。可能的解决方案:关闭所有其他连接;使用服务器模式;SQL 语句:
原因:org.h2.jdbc.JdbcSQLException:数据库可能已在使用中:“被另一个进程锁定”。可能的解决方案:关闭所有其他连接;使用服务器模式;SQL 语句:
python - Cassandra 抽象模型不能用聚类顺序定义 primary_key
我在 python 中创建cassandra模型,下面是我的代码
这给出了错误
如果我发表评论,clusturing_order
那么它的工作正常。
有什么方法可以clusting_order
在abstract
类中定义吗?
我必须created_timestamp
在每个模型中创建,所以我不能将它移动到每个模型。
cassandra - 为 Cassandra 的聚类列定义自定义比较器
有没有办法让我使用自定义比较器函数对 cassandra 中的聚类键进行排序。
我的表定义类似于以下内容:
在这里,data_id
将用作聚类列。我想知道是否可以定义一个自定义比较器来指示data_id
写入磁盘的顺序。
提前感谢您的帮助:)。
clustering-key - 产品评级的情绪分析
Hy,我正在从事基于产品评级情感分析的项目。 我有好词和否定词的数据集。当任何用户在网站上评论产品时,它会自动评分为 10 所以我对集群技术感到困惑,并且之前解决了我的问题Plzzx 帮助在此先感谢。
cluster-analysis - 相似矩阵的聚类技术
根据他们选择的数码相机的功能,我有 128 位受访者的二进制数据。其中“1”表示选择特征,“0”表示未选择特征。我在列中有 92 个产品特征,在行中有响应者。每个受访者从 92 个特征中准确选择了 20 个特征。我想根据他们选择的功能创建不同用户组的集群。我在这些二进制数据上尝试了一些聚类算法,如模糊聚类和分层算法,但它没有给我任何好的结果,而且创建的聚类非常糟糕。所以现在我已经将骰子系数相似性矩阵应用于响应者的数据,这基本上给了我每个响应者与所有其他响应者的相似度得分。是否可以在这个相似度矩阵上应用聚类技术来获得好的聚类?还有哪些聚类技术可以应用在这个用户相似度矩阵上,这样我就可以根据他们的相似度分数来识别用户的聚类。任何建议和评论将不胜感激
sorting - Cassandra 排序和不断变化的聚类键
对于需要按可以修改的键对数据进行排序的情况,我有一个数据建模问题。所以,假设我们有一个用户表
现在我可以通过 dept_id 查询 cassandra 以获取所有用户。
如果我想查询一个部门的所有用户,按 mod_date 排序怎么办?
所以,一种方法是
但是,每次更新用户名时,mod_date 都会发生变化。所以它不能成为集群键的一部分。
尝试 1:
不更新行,而是为每次更新创建新记录。
因此,假设用户 foo 的记录如下所示
{'dept_id1',TimeStamp1','user_id1','foo'}
,然后名称更改为 'bar' ,然后更改为 'baz' 。在这种情况下,我们将另一行添加到表中,所以它看起来像
现在我们可以得到一个部门中的所有用户,按 mod_date 排序,但它提出了一个不同的问题。
返回的数据重复
.
尝试 2: 添加另一列来识别头记录,就像链表一样
每次发生更新时,它都会添加一行并添加新记录的 PK。
并为“next_record”列添加二级索引。
现在我可以支持获取一个部门中的所有用户,按 mod_date 排序
select * from USERS where dept_id=':dept' AND next_record='HEAD' order by mod_date。
但它看起来相当复杂的解决方案,也许我遗漏了一些东西,一个更简单的解决方案..
另一个选项是删除和插入,但对于高频更改,我认为 Cassandra 存在墓碑问题。
欢迎提出建议/反馈。谢谢 !
python - 默认使用 uuid 时的 Cassandra TimeUUID 泛洪文件描述符
我有 Cassandra 模型
最近应用程序命中uuid1 创建不关闭文件 - 命中文件描述符限制。我试图找到解决方案,但似乎我认为哪些选项可能行不通
uuid1
默认替换为uuid4
,但TimeUUID
需要时间部分,并且只uuid1
提供。- 替换
uuid1
为cassandra.util.uuid_from_time(time.time())
, 当检查 和 的代码时uuid1
,uuid_from_time
两者看起来相同,所以也不能解决问题。
最后一个选项是替换TimeUUID
为Timestamp
类型,但此created_at
列是primary_key
and clustering_order
,所以不知道我能不能这样做。
我的列族已经有 1,000,000 多个数据,所以我不能直接删除它们。
我也想知道,使用TimeUUID
代替的好处是timestamp
什么?
centos7 - 在多个服务器之间同步 GnuPG 私钥以实现水平扩展
我将 CentOS 7 和 GnuPG 2.0 用于我的一个使用加密和解密的应用程序。
现在我正在尝试在名为服务器 A 和服务器 B 的两台服务器上水平扩展我的应用程序。
假设应用程序在服务器 A 上创建了一个私钥/公钥对,我如何在服务器 B 中共享相同的密钥集,反之亦然,以便应用程序可以从任一服务器访问相同的密钥集?
sorting - Cassandra - 为分页解决方案排序数据?
因此,我们有一个使用 .NET 和 Cassandra / Spark 组合的 Web 应用程序来生成在线报告。
目前,我们从 Cassandra 获取所有相关数据,并通过一个 JavaScript 插件将其呈现在一个表格中,该插件也对其进行排序(取决于单击的列)。
例如
然而,返回的数据变得越来越大:因此我们需要开发某种分页来避免较长的请求和前端加载时间。
最有可能用户排序的列是时间,不幸的是它不是集群键的一部分,因此不能使用该ORDER BY
命令。
我们提出的一个解决方案是创建一个具有相同数据的“排名”表,例如
...但这会给 Spark 带来更多的负载,因为为“时间”收集的数据会不断增加,因此会改变排名。
我们还可以在服务器端对结果进行排序,通过 ajax 调用缓存和检索有限的数据,但是这种方法会显着增加服务器上的内存负载(特别是如果许多用户同时使用系统)。
也许我想太多了,可以使用一个简单的 cassandra 表结构来代替。解决这个问题的最佳方法是什么?
编辑(2017 年 12 月 15 日):在 Cassandra 中遇到了一个名为Materialized Views的东西,它似乎能够将非键控列作为集群键排序。这对于获取最高行数和排序但不是分页非常有用。
编辑(2017 年 12 月 18 日):Datastax C# 驱动程序允许对返回的结果进行分页。分页状态可以被保存并在需要时继续。这与物化视图一起将完成分页。
编辑(2017 年 12 月 19 日)
还没有真正通过 spark 深入研究数据帧的坑——一旦设置,它们的排序和过滤速度非常快——像 SQL 一样对待它。
关键词:一次设置。发现他们平均需要大约 7 秒来创建。
编辑(2018 年 3 月 29 日)
使用当前解决方案遇到障碍(物化视图 + 限制结果)。物化视图需要不断更新,导致大量墓碑。这意味着:集群性能不佳。
请参阅更新时按非聚类键和墓碑排序结果。
回到广场 1.叹息
编辑(2018 年 8 月 22 日) 通过大力研究:看来要走的路是实施Solr解决方案。Solr 允许强大且快速的索引搜索以及分页。这篇博客文章“避免扩展 Cassandra的陷阱”是沃尔玛开发人员的一个很好的资源,它解释了他们如何使用“分片”进行分页的解决方案。
jmeter - 如果通过 jmeter 发送请求,则在 glassfish 集群中,请求不会隔离到不同的服务器
对于应用服务器设置为玻璃鱼集群。我已经通过 jmeter 发送了请求,并且所有请求都只命中了一台服务器。预计请求应该被分发到集群中的多个服务器。但是,如果手动发送请求集群正在工作。请帮忙解决这个问题