我正在寻找创建一个表来存储包含大量网站访问者的 URL 参数详细信息的信息。我正在为每个站点获取每个 user_id-session_id 对的参数和值字典,每个站点都有一个时间戳。
总之:每个站点都有用户(他们有会话),这些用户的参数有时具有值。
我想像这样查询这些数据......
对于每个网站,给定一个日期范围,获取具有一定参数值的客户的customer_id。
ps 我没有用户 ID/会话 ID 的列表,所以我不能在不执行“get_range()”查询的情况下将它们用作行键。这可能很昂贵。
尝试过的解决方案/想法...
我认为动态列在这里会是一个好主意,因为我们并不真正了解所有不同的参数集,我宁愿不尝试对它们进行硬编码。这给了我参数的名称作为列标题和单元格的值作为参数值。这一切都很好,但它给我留下了(站点、日期、客户 ID、会话 ID)的复合行键。
我完全支持大型复合行键,但我认为我(希望得到纠正)不能以这种方式查询数据以获取日期范围。如果是这样,请问我该怎么做?
还考虑过使用 site-datetime 复合列标题,因为它可以让我很好地过滤这些属性。然后我可以将行键作为 (param - param value) 复合键并构建一组 user_ids 作为值。实际上,我认为这听起来是我目前最好的选择,但它仍然看起来相当混乱。
如果有人有任何想法,我很想听听他们的意见!
谢谢,
马特
pps 我正在使用 Pycassa、CQL3 和 Cassandra 1.2,所以我拥有这些平台提供的所有工具