问题标签 [columnstore]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - ClickHouse,如何在插入时修改值?
有没有办法做到这一点 ?乍一看,它应该可以使用 DEFAULT,但我不知道语法。基本上我想要做的是有一个看起来像这样的列:
my_string 字符串默认操作(my_original_string)
无需在表中永久存储“my_original_string”。这可能吗 ?
mysql - Clickhouse,快速连接引擎
clickhouse 中是否有针对快速连接进行了优化的引擎,可以类似于使用 mariaDB 列存储的方式使用(例如,将大表列存储,然后存储更小的表......例如 50GB,innoDB)?
database - 如何从列式数据库中读取编码数据,例如 Vertica 中的 RLE 编码数据?
在下表中,当 Dept 字段中的 Data 被编码和存储时,值为 10 的 Dept 如何知道它的 Age 值为 38。
身份证部年龄
1 10 60
2 10 38
3 10 49
对于行存储,我知道我检查 ID 2 并获取整行的数据。
但是,当 ID 2 在列式存储中并且 Dept 信息采用编码形式时,我无法理解如何为 ID 2 检索数据。
你能帮我理解我是否遗漏了一些明显的东西吗?
compression - 如何在 MonetDB 中启用(强制)压缩?
我安装了 MonetDB 并导入了一个(未压缩的)291 GB TSV MySQL 转储。它就像一个魅力,数据库非常快,但数据库需要超过 542 GB 的磁盘空间。似乎 MonetDB 也能够使用压缩,但我无法找到如何启用(甚至强制)它。我该怎么做?我不知道它是否真的加快了执行速度,但我想尝试一下。
cassandra - 在 Cassandra 中对二级索引进行 ORDER BY
我正在评估 Cassandra 对解决方案的使用情况,该解决方案需要查询分区键并获得按优先级列排序的前 100 个结果,这些结果不在集群键中。我只通过分片键查询。
我可以编写一个高效的 CQL 查询吗
在卡桑德拉有可能还是我应该去别处看看?
sql-server - SQL Server 列存储索引的基础存储和搜索算法是什么
我试图弄清楚列存储索引如何在 SQL Server 中工作。我正在寻找的是关于列存储索引的底层存储和随附搜索算法的技术参考指南或白皮书,特别是关于 SQL 2016(以防与早期版本不同)。我什至不知道这个算法/设计是否有正式的学术名称,因为我在我查看过的 Microsoft 文档中没有找到任何类似的东西。
与我对传统行存储索引的追求相同的是,它们的底层存储和搜索算法基于 B+ 树。B+ 树算法有大量的白皮书可供消化。我看到的关于 Columnstore Indexes 的唯一算法参考与同样基于 B+ Trees的 DeltaStore 功能有关。
我希望底层存储和搜索算法不是专有的,我的谷歌技能只是让我失望,但如果事实证明这是专有的,知道这将有助于平息我的好奇心。任何帮助,将不胜感激!
mariadb - 将用户模块添加到现有 MariaDB 列存储集群
我有一个包含一个用户模块和两个性能模块的 MariaDB 列存储集群。(UM1、PM1 和 PM2) 现在我想添加第二个用户模块 (UM2),它连接到 PM1 和 PM2。
我是否必须从地面安装所有四个模块,或者我可以在 UM2 上安装 MariaDB 列存储并参考 UM1 和 PM1 和 PM2,而不在 UM1、PM1 和 PM2 上安装软件?
(UM1、PM1 和 PM2 正在生产中,因此无法重新安装)
sql - 列存储索引是否会影响内部连接所需的内存量?
我有一个超过 700M 行的表。我尝试了 2 个不同的索引选项:1)1 个聚集索引和 1 个非聚集索引 2)一个聚集列存储索引。
我正在使用 SQL Server 2016。
使用第一个选项时,我能够在大约 30 分钟内将这张桌子与另一张桌子连接起来。
使用第二个选项,我在大约 35 分钟后收到 Out of Memory 错误。
这个内存不足错误是否可能与使用列存储索引有关?还是服务器很可能只是忙?如果是列存储索引的某些特性,有没有办法避免这个错误?
此外,在某些情况下(当您有超过 100,000,000 行时),通常的索引比列存储更受欢迎吗?
编辑:
该表如下所示:
没有定义键。
索引选项 1:
索引选项 2:
加入:
mysql - 用于大数据的 MyISAM 或列存储?
我有很大的 CSV 日志(大约 1TB)。我应该使用什么引擎来存储它们?我读过 Column store 是为这种情况而开发的,但它在 MyISAM 上的真正优势是什么?
sql - ClickHouse ReplicatedMergeTrees 配置问题
我在两台不同的机器上有两张表,它们都将 zookeeper 作为守护进程运行,其中一个有 myid 1,另一个有 myid 2。
该表在机器“1”上配置如下:
该表在机器“2”上配置如下:
'/clickhouse/tables/01/test' 中的 01 可能是困扰我的值......因为我用它'{layer}-{shard}'......但因为我没有配置 remote_servers 我假设我可以使用任何值,这没关系,因为我不想要查询分布,只是数据重复。
此外,这些表似乎“知道”彼此,因为创建两个副本号为“2”或“1”的表会导致错误表明这样的表已经存在。
如果我想使用复制,是否需要默认配置 remote_server?我需要专门为要复制的表配置 zookeeper 吗?你们有使用 clickhouse 设置数据复制的详细示例吗?