1

我想在 mariadb 列存储中创建包含数千行的宽表。我没有找到存储引擎允许的最大列数的任何文档。我还想知道 1000 个整数列的列存储的性能如何?

4

2 回答 2

1

(警告:这个“答案”是基于我对设计的理解,而不是任何“事实”。)

表的磁盘占用量应与列数成正比。

与 MariaDB 中的大多数东西一样,列数可能有一个硬性限制,但我想不出它低于 1000 的原因。也许,相反,2 的更大幂。

当仅引用少量列时,表中有多少列应该无关紧要。数据的结构方式应该允许以相对固定的工作量获取每一列。

对于过滤,我希望付出的努力取决于用于过滤的列数及其分布。如果您的WHERE子句引用了很多列,我不希望有好的表现。

对于任何引擎,拥有大量列不一定是明智的设计。通常,当您有很多不用于过滤或排序的列(WHERE, ORDER BY)时,您最好将它们折腾成 JSON 字符串(或其他结构)并存储为单个TEXTBLOB列。然后让应用程序解析字符串以获取各个列。

列存储在“过滤”方面大放异彩。它在压缩数据方面也非常好,我的 JSON 建议会打败这一点。但是现在您要在速度与空间之间进行权衡,这是非常特定于数据的。

你愿意描述你提议的数据集吗?

于 2018-05-24T14:40:03.387 回答
0

Columnstore 的列数没有限制,但数据摄取性能并不是最好的 ATM。我们将在最近的将来显着缩短时间。

于 2018-07-17T21:27:08.563 回答