1

谁能解释一下kognitio中可用的所有成像技术。

如果您涵盖以下技术,那就太好了。

1) 复制

2)复制的分区图像(column_name)

3) HASHED ON (column_name) PARTITION IMAGE BY (column_name)

提前致谢。

4

2 回答 2

2

此处的 Kognitio 社区论坛文章包含所有最新文档的链接。

特别是,Kognitio 指南的第 2 章涵盖了现有的各种表格和视图图像选项。

原始问题中提到的是:

  1. 复制- 这里对象的副本被放置在每个 ram 存储进程中。这通常用于维度对象,以允许它们连接到大对象,无论这些对象是随机分布还是散列。
  2. 分区(决定是否分区与您是否正在复制/随机化/散列无关) - 这允许 ram 存储对属性进行分区。主要好处是可以在扫描时消除分区,从而减少处理的数据量。请注意文档中有关分区的进一步评论。
  3. hashed - 对属性进行哈希处理允许根据该属性值分发数据。例如,在零售示例中,您可以通过 customer_id 对客户表进行哈希处理,并对事务表执行相同操作,然后任何给定的事务都位于与相关客户记录相同的 ram 存储中。请注意,这种分布很容易出现偏差;因此,请参阅文档以获取有关使用部分分布来消除偏斜的详细信息。
于 2015-07-23T14:51:05.237 回答
1

我们在 WX2 中有四种不同的成像选项 随机 – 偶数循环分布(默认) 散列 – 根据密钥放置到 RAM 存储中 部分散列 – 散列但处理倾斜属性 复制 – 每个 RAM 存储上的完整副本

复制将映像的副本放在每个 RAM 存储上。就 RAM 和重新分配时间而言,它的成本可能很高。适用于小型查找/维度表它不能被碎片化。Theta 连接需要它。复制是每个 RAM 存储而不是每个节点。

散列将表或视图图像的行分布在 RAM 存储中。它取决于一列或多列的值。它适用于连接大表——公共键上的散列。可能会导致歪斜。不同值的数量小于 RAM 存储的数量。一两个值在频率上大大超过其他值。部分分配可用于抵消价值偏斜

部分散列是一种在大型表在键列上严重倾斜时处理连接的机制。它是直接散列的替代方法。类型是部分散列/随机 RAM 存储和跨 RAM 存储的部分散列/复制

于 2015-07-28T09:46:52.950 回答