0

我目前正在开发一个推荐应用程序,我正在使用 cassandra 和 hadoop 和 pig 来执行 map/reduce 工作。为了利用列名属性,我们的团队决定使用无值列和聚合列名来存储数据,例如,特定内容的所有命中都存储在具有单行的列族中,并且每一列都是针对内容使用以下结构:

rowkey = 'single_row' {
    id_content:hit_date, -
    .
    .
    .
}

使用这种模式,我们可以获得宽行而不是窄行;问题是,我需要如何操作 Pig 中的数据才能使用此模式将数据存储在 cassandra 中?

4

1 回答 1

0

如果您使用复合列,或者您是否只是连接 id_content 和 hit_date,我不确定您的评论。

对于普通(即非复合)列,架构是:

(key, {(col_name, col_value), ...})

在复合列的情况下,我相信架构如下:

(key, {((col_name_part_1, col_name_part_2), col_value), ...})

此评估(针对复合列)基于阅读在https://issues.apache.org/jira/browse/CASSANDRA-3684上提交的补丁

于 2012-05-24T14:56:24.467 回答