问题标签 [column-oriented]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - Cassandra 是面向列的还是列式数据库
列式数据库应该将一组列存储在一起。但是 Cassandra 按行存储数据。SS Table 将保存多行数据映射到其对应的分区键。所以我觉得 Cassandra 是一个像 MySQL 一样的行明智的数据存储,但还有其他好处,比如“宽行”,每一列不一定都存在于所有行中,当然它在内存中。如果我错了,请纠正我。
hbase - 当我们有一个包含 5TB 数据和 10 个 Regionservers 的表时提高写入性能
假设我们有一个包含 5TB 数据和 10 个区域服务器的表。我们想继续在我们的表中放置广泛分布的行ID。在这种情况下,增加区域服务器会有所帮助还是减少区域服务器会有所帮助?考虑区域大小为 256 MB。
python - Python ORM 到 NumPy 数组
我正在使用 numpy ORM 构建数据模拟框架,在其中使用类和对象而不是直接使用 numpy 数组要方便得多。尽管如此,模拟的输出应该是 numpy array。在这里,blockz 作为后端也很有趣。
我想将所有对象属性映射到 numpy 数组。因此,numpy 数组就像我的类的面向列的“持久”存储一样工作。我还需要将“新”属性链接到我可以使用 numpy(pandas) 框架计算的对象。然后只需使用相同的后端将它们相应地链接到对象。
这种方法有什么解决方案吗?您会推荐任何以 HPC 方式构建它的方法吗?我只找到了 django-pandas。PyTables 在添加新的列属性时非常慢。
类似于(处理指向 np_array 的指针):
hadoop - 为什么面向列的文件格式不太适合流式写入?
Hadoop 权威指南(第 4 版)在第 137 页有一段:
面向列的格式需要更多内存用于读取和写入,因为它们必须在内存中缓冲行拆分,而不仅仅是单行。此外,通常无法控制写入发生的时间(通过刷新或同步操作),因此面向列的格式不适合流式写入,因为如果写入进程失败,则无法恢复当前文件。另一方面,面向行的格式(如序列文件和 Avro 数据文件)可以在写入器失败后读取到最后一个同步点。正是出于这个原因,Flume(参见第 14 章)使用了面向行的格式。
我不明白为什么在失败的情况下无法恢复当前块。有人可以解释有关此声明的技术困难:
我们无法控制写入发生的时间(通过刷新或同步操作)
cassandra - Cassandra 是面向列的还是键值存储?
众所周知,Cassandra 是面向列的数据库。但是他们的一些讨论仍在进行中,要么是键值对存储,要么是面向列的数据库。请证明 Cassandra 是面向列的还是键值对存储?
我们怎么知道的,请解释一下。
先谢谢了。
key-value - 我应该将哪个 NoSQL 数据库用于 URL 缩短器?
我正在为 uni 开发一个项目,即构建一个 URL 缩短器。我研究了不同类型的 NoSQL 数据库,但我不知道哪种更适合我的目的以及为什么。
我可以在键/值数据库、面向文档、面向列或图形之间进行选择。我确信图一不利于我的目标。
请问您有什么建议吗?
cassandra - 从 UML 到面向列的 NoSQL 数据库的映射规则
因为我正在从事将 UML 类图转换为 NoSQL cassandra 数据库的新项目。我正在努力寻找类似于关系模型的基本翻译规则。正如我在cassandra 文档中所读到的,它是面向查询的建模。但是在实施之前是否有任何通用规则概念。请帮忙
performance - 面向列的数据库中磁盘寻道如何更快
我最近开始研究大查询,我知道它们是面向列的数据库,并且在这种类型的数据库中磁盘查找要快得多。
任何人都可以向我解释一下,与关系数据库相比,面向列的数据库中的磁盘查找速度如何更快。
database-design - 计算不是 PK 的列 - Cassandra
所以我遇到了无法选择表中行数的问题。
我的问题是:“获取图书馆中保留最多的书”
我创建的模型:
查询:
我真的觉得我的模型错了。该表是 PostgreSQL 表的改编版。那么如何正确获取每本书的预订数呢?在这种情况下我的PK应该是什么?
sql - 在 ClickHouse 数据库中截断和插入
我有一个特殊的场景,我需要每 30 分钟左右截断并批量插入 ClickHouse DBMS 中的表。我在 ClickHouse 中找不到截断选项的参考。
但是,我可以找到建议,我们可以通过删除旧表、创建一个具有相同名称的新表并将数据插入其中来间接实现这一点。
对此,我有几个问题。
- 这是如何实现的?这个过程中的步骤顺序是什么?
- 在删除和重新创建表期间,其他查询(例如Select )会发生什么情况?
- 在 ClickHouse 中删除和重新创建表通常需要多长时间?
- 有没有更好更干净的方法可以实现?