问题标签 [column-oriented]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
16728 浏览

cassandra - Cassandra 是面向列的还是列式数据库

列式数据库应该将一组列存储在一起。但是 Cassandra 按行存储数据。SS Table 将保存多行数据映射到其对应的分区键。所以我觉得 Cassandra 是一个像 MySQL 一样的行明智的数据存储,但还有其他好处,比如“宽行”,每一列不一定都存在于所有行中,当然它在内存中。如果我错了,请纠正我。

0 投票
1 回答
72 浏览

hbase - 当我们有一个包含 5TB 数据和 10 个 Regionservers 的表时提高写入性能

假设我们有一个包含 5TB 数据和 10 个区域服务器的表。我们想继续在我们的表中放置广泛分布的行ID。在这种情况下,增加区域服务器会有所帮助还是减少区域服务器会有所帮助?考虑区域大小为 256 MB。

0 投票
1 回答
237 浏览

python - Python ORM 到 NumPy 数组

我正在使用 numpy ORM 构建数据模拟框架,在其中使用类和对象而不是直接使用 numpy 数组要方便得多。尽管如此,模拟的输出应该是 numpy array。在这里,blockz 作为后端也很有趣。

我想将所有对象属性映射到 numpy 数组。因此,numpy 数组就像我的类的面向列的“持久”存储一样工作。我还需要将“新”属性链接到我可以使用 numpy(pandas) 框架计算的对象。然后只需使用相同的后端将它们相应地链接到对象。

这种方法有什么解决方案吗?您会推荐任何以 HPC 方式构建它的方法吗?我只找到了 django-pandas。PyTables 在添加新的列属性时非常慢。

类似于(处理指向 np_array 的指针):

0 投票
1 回答
318 浏览

hadoop - 为什么面向列的文件格式不太适合流式写入?

Hadoop 权威指南(第 4 版)在第 137 页有一段:

面向列的格式需要更多内存用于读取和写入,因为它们必须在内存中缓冲行拆分,而不仅仅是单行。此外,通常无法控制写入发生的时间(通过刷新或同步操作),因此面向列的格式不适合流式写入,因为如果写入进程失败,则无法恢复当前文件。另一方面,面向行的格式(如序列文件和 Avro 数据文件)可以在写入器失败后读取到最后一个同步点。正是出于这个原因,Flume(参见第 14 章)使用了面向行的格式。

我不明白为什么在失败的情况下无法恢复当前块。有人可以解释有关此声明的技术困难:

我们无法控制写入发生的时间(通过刷新或同步操作)

0 投票
1 回答
5077 浏览

cassandra - Cassandra 是面向列的还是键值存储?

众所周知,Cassandra 是面向列的数据库。但是他们的一些讨论仍在进行中,要么是键值对存储,要么是面向列的数据库。请证明 Cassandra 是面向列的还是键值对存储?

我们怎么知道的,请解释一下。

先谢谢了。

0 投票
1 回答
1704 浏览

key-value - 我应该将哪个 NoSQL 数据库用于 URL 缩短器?

我正在为 uni 开发一个项目,即构建一个 URL 缩短器。我研究了不同类型的 NoSQL 数据库,但我不知道哪种更适合我的目的以及为什么。

我可以在键/值数据库、面向文档、面向列或图形之间进行选择。我确信图一不利于我的目标。

请问您有什么建议吗?

0 投票
1 回答
514 浏览

cassandra - 从 UML 到面向列的 NoSQL 数据库的映射规则

因为我正在从事将 UML 类图转换为 NoSQL cassandra 数据库的新项目。我正在努力寻找类似于关系模型的基本翻译规则。正如我在cassandra 文档中所读到的,它是面向查询的建模。但是在实施之前是否有任何通用规则概念。请帮忙

0 投票
2 回答
93 浏览

performance - 面向列的数据库中磁盘寻道如何更快

我最近开始研究大查询,我知道它们是面向列的数据库,并且在这种类型的数据库中磁盘查找要快得多。

任何人都可以向我解释一下,与关系数据库相比,面向列的数据库中的磁盘查找速度如何更快。

0 投票
1 回答
39 浏览

database-design - 计算不是 PK 的列 - Cassandra

所以我遇到了无法选择表中行数的问题。

我的问题是:“获取图书馆中保留最多的书”

我创建的模型:

查询:

我真的觉得我的模型错了。该表是 PostgreSQL 表的改编版。那么如何正确获取每本书的预订数呢?在这种情况下我的PK应该是什么?

0 投票
1 回答
3383 浏览

sql - 在 ClickHouse 数据库中截断和插入

我有一个特殊的场景,我需要每 30 分钟左右截断并批量插入 ClickHouse DBMS 中的表。我在 ClickHouse 中找不到截断选项的参考。

但是,我可以找到建议,我们可以通过删除旧表、创建一个具有相同名称的新表并将数据插入其中来间接实现这一点。

对此,我有几个问题。

  1. 这是如何实现的?这个过程中的步骤顺序是什么?
  2. 在删除和重新创建表期间,其他查询(例如Select )会发生什么情况?
  3. 在 ClickHouse 中删除和重新创建表通常需要多长时间?
  4. 有没有更好更干净的方法可以实现?