问题标签 [column-family]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - Cassandra 时间序列数据建模和限制分区大小
我们目前正在研究 Cassandra 作为大型时间序列系统的数据库。
我已阅读https://academy.datastax.com/resources/getting-started-time-series-data-modeling关于在 Cassandra 中建模时间序列数据的信息。
我们拥有的是来自许多气象站的高速时间序列数据。每个气象站都有许多“传感器”,每个传感器收集三个指标:温度、湿度和光线。
我们正在尝试将每个系列存储为宽行。但是,我们希望在项目的整个生命周期内每个站点获得数十亿个读数,因此我们希望限制行大小。
我们希望每个 都有一行(weather_station_id, year, day_of_year)
,即每天都有一个新行。但是,我们仍然希望分区键是weather_station_id
- 也就是说,我们希望一个站的所有读数都在同一个节点上。
我们目前有以下架构,但我想得到一些反馈。
在上述文档中,他们利用了这种“按日期限制分区行”的概念。但是,我不清楚他们示例中的日期是否是分区键的一部分。
datastax-enterprise - 删除/更改集合数据类型的 cassandra 列的最佳实践是什么?
在我们的 Cassandra 表中,每次我们更改“集合类型”列的数据类型时,都会引发问题。例如:
为了将数据类型从 更改为text
,Map<text,float>
我们这样做:
- 删除现有列
- 等待 cassandra 吸收这种变化。
- 添加列(相同名称)但不同的数据类型。
这在所有节点中都反映得很好,但是 Cassandra 日志在压缩期间开始抱怨:
RuntimeException: 6d6...73 未定义为集合
我发现表中的comparator
条目不正确"system.schema_columnfamilies"
。删除表并重新创建它可以解决问题,但并非总是可行。
当我们在上述情况下处理集合类型列时,是否有一些最佳实践?
数据库版本:DataStax-Enterprise:4.7.1 Cassandra 2.1.8.621
cqlsh 5.0.1
cassandra - 如何在 cassandra 中追溯列族的大分区
通过 ops-center 和 nodetool cfstats 我能够找到一个键空间表的分区之一是 560 Mb,但找不到那个分区。我们如何追踪表的哪个分区那么大?
cassandra - 将数据从一个列族 db 传输到另一个列族
我是 Cassandra 和列族数据库世界的新手。我有一个场景,我需要将数据从一个列族数据库(如Scylla数据库)移动到另一个列族数据库Datastax Cassandra。要传输的数据量将达到数百万。而且我希望这种数据传输在定期的时间间隔内发生,比如说 2 分钟。我正在探索 sstableloader 选项。还没有运气。对于我的情况,还有其他更好的方法吗?任何建议将不胜感激。
c++ - Using rocksdb::Iterator and Column Family is not working
I have the following piece of code:
The printf
is never hit.
However, if I change the Put
line to:
Meaning, removing the column family handle
, I'm getting the line printed fine.
I'm guessing the iterator API should take the column family into account, but I couldn't find any documentation.
multithreading - 如果我同时将数据写入hbase的不同列族,是否相互影响
在我的应用程序中,每个线程负责将数据写入一个列族,这些线程可能不会同时启动,但它们可能会同步写入数据。
cassandra - 如何通过 CQL 获取 cassandra 中特定 CF 的令牌范围?
我确实想使用命令 nodetool repair -st starting_token -etending_token 逐个修复列族。由于列族中的每一行都有不同的令牌值范围,有没有办法在CQL中获得该单个列族所拥有的不同令牌范围?
hadoop - 如何设置 Hbase 表列族的列族大小?
我正在尝试将数据从 CSV 文件导入 HBase 表。但是我在导入过程中遇到了下面显示的异常。
我相信这与高于默认大小的数据长度有关。如何通过终端增加 HBase 列的列族大小?任何帮助将非常感激。
python - cassandra cqlsh 数据格式问题
我有一个可操作的 cassandra 集群,在单个数据中心模式下安装了 apache Cassandra 3.7 的 tarball。
CQLSH 问题: 当我描述列族时,我看到列名正确显示,但是当我在表上进行选择时,我看到所有列名都以“u”为前缀:
当我插入记录并进行选择时,插入的值也以'u'为前缀。我做了几次尝试,每个相关链接似乎都指向 python 问题。
我当前的 python 版本:Python 2.7.11 :: Anaconda 4.0.0(64 位),我做了一个pip install cassandra-driver
为 Cassandra 驱动程序安装任何缺少的依赖项。这并没有解决问题。
非常感谢任何帮助。我花了很多时间来解决这个问题,并希望我能在这里得到一些答案:)
hbase - Hbase 多列族 vs 多表
我正在为从不同来源生成的数据开发 Hbase 存储。通常,来自同一来源的列更有可能同时被检索到。预期的写入/读取比率大致在 1/10 到 1/100 之间(取决于不同的来源)。
所以我有两个选择:
- 多列族:只需创建一个表和多个列族,同一来源的每种数据将形成一个列族。
- 多个表:为每个源创建一个表(具有一个列族)。
以上是我的一些理解,如有错误请指正。
- 多表解决方案适用于动态添加新源。而多列系列解决方案可能会有停机时间。
- 如果不同来源的rowkey具有不同的分布(例如,int user_id vs image GUID)或基数,也许最好拆分成不同的表?
- 我们可能有一些要求来同时从不同来源检索同一行键的列。这样,多列族可能会更快(不确定)?
在做出决定之前有什么建议或者我需要考虑任何其他因素吗?有没有典型案例多表/多列族优于其他?
谢谢