问题标签 [column-oriented]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41 问题

0 投票

4 回答

16728 浏览

cassandra - Cassandra 是面向列的还是列式数据库

列式数据库应该将一组列存储在一起。但是 Cassandra 按行存储数据。SS Table 将保存多行数据映射到其对应的分区键。所以我觉得 Cassandra 是一个像 MySQL 一样的行明智的数据存储，但还有其他好处，比如“宽行”，每一列不一定都存在于所有行中，当然它在内存中。如果我错了，请纠正我。

2014-08-22T07:40:01.197

0 投票

1 回答

72 浏览

hbase - 当我们有一个包含 5TB 数据和 10 个 Regionservers 的表时提高写入性能

假设我们有一个包含 5TB 数据和 10 个区域服务器的表。我们想继续在我们的表中放置广泛分布的行ID。在这种情况下，增加区域服务器会有所帮助还是减少区域服务器会有所帮助？考虑区域大小为 256 MB。

hbase column-oriented

2014-09-24T18:25:08.090

0 投票

1 回答

237 浏览

python - Python ORM 到 NumPy 数组

我正在使用 numpy ORM 构建数据模拟框架，在其中使用类和对象而不是直接使用 numpy 数组要方便得多。尽管如此，模拟的输出应该是 numpy array。在这里，blockz 作为后端也很有趣。

我想将所有对象属性映射到 numpy 数组。因此，numpy 数组就像我的类的面向列的“持久”存储一样工作。我还需要将“新”属性链接到我可以使用 numpy(pandas) 框架计算的对象。然后只需使用相同的后端将它们相应地链接到对象。

这种方法有什么解决方案吗？您会推荐任何以 HPC 方式构建它的方法吗？我只找到了 django-pandas。PyTables 在添加新的列属性时非常慢。

类似于（处理指向 np_array 的指针）：

python numpy orm pytables column-oriented

2014-11-16T23:11:23.780

0 投票

1 回答

318 浏览

hadoop - 为什么面向列的文件格式不太适合流式写入？

Hadoop 权威指南（第 4 版）在第 137 页有一段：

面向列的格式需要更多内存用于读取和写入，因为它们必须在内存中缓冲行拆分，而不仅仅是单行。此外，通常无法控制写入发生的时间（通过刷新或同步操作），因此面向列的格式不适合流式写入，因为如果写入进程失败，则无法恢复当前文件。另一方面，面向行的格式（如序列文件和 Avro 数据文件）可以在写入器失败后读取到最后一个同步点。正是出于这个原因，Flume（参见第 14 章）使用了面向行的格式。

我不明白为什么在失败的情况下无法恢复当前块。有人可以解释有关此声明的技术困难：