问题标签 [pycassa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
django - 使用 Django 在 cassandra 中创建数据模型
如何使用 Django 后端在 cassandra 中创建数据模型?我提到了 twissandra ,但我对数据模型的创建方式感到困惑(比如在关系数据库中)
python - 从另一个函数调用一个函数时,在 pycassaShell 中出现意外的 NameError
我正在玩pycassaShell(作为Cassandra和Twissandra教程的一部分)。当尝试在 shell 中添加两个函数并从另一个调用一个函数时,我收到一个错误,即名称无法识别。
这可能是非常简单的事情,但我没有找到如何做到这一点。
pycassaShell 看起来像:
cassandra - Cassandra 按键排序 (TimeUUID)
get_range()
调用列族时,我无法按键排序。
- 键是 TimeUUID
- 关键验证类是 org.apache.cassandra.db.marshal.TimeUUIDType
- 分区器是“ByteOrderedPartitioner”
但是,当我调用 get_range() 时,结果不会以正确的顺序返回。关于我在这里可能做错的任何想法?
python - Cassandra 崩溃,不知道出了什么问题
系统在一段时间后崩溃,但有以下异常:
Python Pycassa 异常读取:
错误:尝试连接到每台服务器两次,但均未成功。最后一次失败是 TTransportException: Could not connect to 10.242.253.141:9160
Cassandra 系统日志
cassanda.yaml
那么怎么了?请指导?
python - Pycassa中的ReferenceField等价物?
我正在尝试了解 Cassandra/Pycassa 数据库设计。
使用Mongoengine,你可以使用“ReferenceField”引用另一个类,如下:
据我从文档中可以看出,Pycassa 等价物是这样的,但我不知道如何创建从 Post 类作者字段到 User 类的引用:
做这样的事情的首选方法是什么?显然,我可以将 User 键放在 Post author 字段中,但我希望有更好的方法可以在幕后处理所有这些,例如使用 Mongoengine。
storage - Ideal method for storing hierarchical data in HDF5
Hello Oracles of StackOverflow,
First time I managed to ask a question on stack overflow, so feel free to throw your cabbages at me. (or correct the way I should be asking my question)
I have this problem. I'm using HDF5 to store massive quantities of cookie information.
My Data is structured in the following way:
CookieID -> Event -> Key_value Pair
There are multiple events for each cookieID. But only one key_value pair per event.
I'd like to know what the best way I should store this in a HDF5.
Currently, I'm storing each cookie as a seperate table within a group in the HDF5, using the cookieID as the name of the table. Unfortunately for me, with 10,000,000 cookies, HDF5 (or specifically PyTables) doesn't approve of this type of storage.
Specifically throwing this error:
/CookieData`` is exceeding the recommended maximum number of children (16384)
I'm wondering if you could recommend the best way of storing this information.
Should I create a flat table? Should I keep this method? Is there something else I can do?
Help is appreciated. Thanks for reading.
arrays - 如何在cassandra中存储多维数组
我想在 cassandra 中存储类似数组的对象,但我还需要使用 cql 访问每个元素,因此我需要构建索引。不幸的是,数组的大小是动态的(但不是维数,它们是预定义的)。存储数组的最合适方法是什么:
matrix[x][y][z]
因此,如果它是一个一维 ( vector[n]
) 数组,那将非常简单。我想超级列是合适的,比如
多维数组 ( matrix[x][y][z]
) 有点复杂,我会将它们存储为:
但在这两种情况下,我都无法弄清楚如何定义 column_validation_classes (我正在使用 pycassa)......
我还尝试使用复合比较器,并将所有内容放在标准列中,例如:
一维:
或多个维度:
但是对于这种情况,如果我想添加带有其他信息的附加列,我不知道如何适当地定义比较器:
此外,我无法弄清楚如何为此构建索引以及如何为复合比较器制作选择语句。
感谢您对我的问题提出任何建议、想法或解决方案;)
干杯
database - Cassandra 中的过滤列
我是卡桑德拉的新手。
假设我有 1,000,000 列。我只想返回列名中包含字符串“test”的列。
Cassandra/Pycassa有可能吗?
performance - 为什么 Cassandra 二级索引仅在 350k 行上如此缓慢?
我有一个带有二级索引的列族。二级索引基本上是一个二进制字段,但我使用的是字符串。名为is_exported的字段可以是'true'或'false'。请求后,所有加载的行都用is_exported = 'false'更新。
我每十分钟轮询一次该列表,并在新行出现时导出它们。
但这里的问题是:我看到这个查询的时间与列表中的数据量呈线性增长,目前需要12 到 20 秒(!!!)才能找到 5000 行。据我了解,索引请求不应取决于 CF 中的行数,而是取决于每个索引值(基数)的行数,因为它只是另一个隐藏的 CF,例如:
我正在使用 Pycassa 来查询数据,这里是我正在使用的代码:
我是不是做错了什么,但我希望这个操作能更快地工作。
有什么想法或建议吗?
一些配置信息:
- 卡桑德拉 1.1.0
- 随机分区器
- 我有 2 个节点,replication_factor = 2(每台服务器都有一个完整的数据副本)
- 使用 AWS EC2,大型实例
- 临时驱动器上的软件 raid0
提前致谢!
python - 多个键上的 pycassa 时间序列数据
我正在尝试为 twitter 克隆制作一个新闻源——它显示选择用户的最新推文,而不是来自所有用户的最新推文或来自单个用户的最新推文。
我将 UUID 密钥存储在单个密钥中,例如:
结束每个 UUID 与另一个列族中的推文相关:
现在,我可以有效地为所有用户或单个用户排序推文时间。但是我怎样才能得到时间排序的事件,例如,user1、user2 和 user3?
请注意,用户 1 可能有很多新推文,但用户 2 可能有几条新推文。
我考虑过创建一个“新闻源”列族,其中包含用户关注的所有用户的推文的 UUID,但是这种纯粹的数据冗余级别似乎……矫枉过正。这是一个更明智的方法吗?