问题标签 [cassandra]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1484 浏览

erlang - 哪个最适合我的需要——我精神崩溃了

我正在用 Erlang 构建一个 Reddit 克隆。我正在考虑使用一些 erlang web 框架,但这不是问题。

我在选择数据库时遇到问题。

这个怎么运作;

我有多个专用的 reddit。例子,科学,有趣,企业,运动。您可以将它们视为子reddits。每个子 reddit 都有类别。

用户可以发布以下信息:

标题,类别标签,描述,类别, 未来日期

并添加图片,链接。视频

与 Reddit 一样,用户将能够对故事和评论进行投票。评论也将有投票系统。

问题如何;

我不知道要使用什么 NoSQL 数据库,该站点将存在 Mysql 的可扩展性问题(相信我,它不会建议使用 sql)如果不是更多,将有大约 10,000-20,000 个并发连接。

现在我需要什么;

1) 用户将前往体育版块,

他们将希望查看所有带有Future Date的故事,例如 NFL 类别或 Soccer World Cup 类别,他们可能希望查看所有带有未来日期的故事,这些故事 表明即将到来的比赛或事件。

但是由于人们可能会发布废话,我需要说按未来日期排序,然后按超过 5 票的帖子过滤结果,然后我需要显示最近的即将发生的事件。

因此,如果周末有一场比赛,而下一场比赛又是 3 周,那么最接近的比赛需要首先出现。

2)所以上面的问题是使用一个数据库

1) 在 subreddit: Sport中查找所有帖子。2) 查找NFL类别中的所有帖子。3)查找所有具有未来日期的帖子。按大多数投票对这些帖子进行排序,并显示与今天最接近的故事。

我认为 couchdb 看起来是个不错的候选人,但我不确定

但是 Cassandra、Hbase、Riak、neo4j 呢?

我要疯了,想弄清楚这一点。

我需要能够扩展和处理大量用户的东西。

0 投票
3 回答
2390 浏览

cassandra - 具有弹性 IP 地址的 Amazon EC2 上的 Cassandra

我可以在没有弹性 IP 地址的 EC2 实例上使用 cassandra 吗?我相信在这种情况下,任何失败的实例都会产生问题。

如果我为 cassandra 节点使用弹性 IP 地址,我必须对它们进行配置,以便它们使用公共 IP 地址进行内部通信(八卦等)。但这会增加网络延迟。

请建议我应该如何配置我的节点以使问题最小化。

0 投票
6 回答
42679 浏览

database - Cassandra中列族的行数

有没有办法在 Cassandra 中获取单个列族的行数(键数)?get_count 只能用于获取列数。

例如,如果我有一个包含用户的列族并且想要获取用户数。我怎么能做到?每个用户都是它自己的行。

0 投票
2 回答
471 浏览

python - 在 python 中延迟执行大数据

我正在尝试考虑 Python API 如何查找像 Cassandra 这样的大型数据存储。R、Matlab 和 NumPy 倾向于使用“一切都是矩阵”的公式,并分别执行每个操作。该模型已被证明对可以放入内存的数据有效。然而,SAS 对大数据的好处之一是它逐行执行,在移动到下一个之前完成所有行计算。对于像 Cassandra 这样的数据存储,这个模型似乎是一个巨大的胜利——我们只循环数据一次。

在 Python 中,SAS 的方法可能类似于:

这是(太?)明确的,但具有只循环一次的优点。对于较小的数据集,与 NumPy 相比,性能会非常差,因为函数没有使用编译代码进行矢量化。在 R/Numpy 中,我们会得到更简洁和编译的:

这将非常快速地执行,因为log并且ifelse都是对向量进行操作的编译函数。然而,一个缺点是我们将循环两次。对于小型数据集,这无关紧要,但对于 Cassandra 支持的数据存储,我看不出这种方法是如何工作的。

问题:有没有办法保留第二个 API(如 R/Numpy/Matlab)但延迟计算。也许通过在最后调用一个同步(数据)函数?

另类的想法?维护 NumPy 类型语法会很好,因为用户将使用 NumPy 进行较小的操作,并且可以直观地掌握它的工作原理。

0 投票
2 回答
2136 浏览

cassandra - 单个 ColumnFamily 中的 Cassandra 原子读/写

Cassandra 的首页http://incubator.apache.org/cassandra/指出:

Cassandra 保证读取和写入在单个 ColumnFamily 中是原子的。

这到底是什么意思呢?
听起来这意味着同一CF中两个不同行的batch_insert()和batch_mutate()是原子的,如果其中一行的操作失败,则整个操作将失败。但这听起来好得令人难以置信……这是正确的吗?

0 投票
3 回答
881 浏览

ruby - 选择数据库技术

我们正在着手构建一个在线平台(API、服务器、数据、Wahoo!)。对于上下文,假设我们需要构建类似 twitter 的东西,但评论(推文)是围绕现场活动组织的。有关实时事件本身的信息必须尽可能快且一致地交付给客户,而有关事件的评论可能需要等待更长的时间才能交付。现场活动结束后,我们将阅读大量内容。

可扩展性非常重要。我们想从租用 VPS 切片开始,并从那里扩展。我是云的忠实粉丝,并希望尽可能长时间地呆在那里。我们可能会使用红宝石。

我确信我想尝试使用文档存储而不是 RDBMS。我喜欢无模式存储的想法以及通过关注键值来更容易扩展的承诺。

问题是我不知道哪种技术最适合我们的平台。我查看了 Couch、Mongo、Tokyo Cabinet、Cassandra 和带有斑点文档的 RDBMS。为这项特定工作选择合适的工具有什么帮助吗?

0 投票
5 回答
12969 浏览

cassandra - 卡桑德拉 VS 里亚克

我正在寻找一个最终一致的数据存储,看起来它可能会归结为 Riak 或 Cassandra。有没有人对此有看法?

0 投票
3 回答
524 浏览

perl - 如何使用 Net::Cassandra 在 Perl 中创建超级列或将其关联到列?

如何使用Net::Cassandra创建超级列或将其关联到 Perl 中的列?

0 投票
1 回答
394 浏览

php - How can I get the key of a colum in cassandra using php?

How can i get the keys of the column having sex = male. Using the php library from http://wiki.apache.org/cassandra/ClientExamples

For example my keys are

0,1,2

key: 0 { column( name:age, value:24), column( name:sex, value:female) }

key: 1 { column( name:age, value:24), column( name:sex, value:female) }

key: 2 { column( name:age, value:26), column( name:sex, value:male) }

0 投票
1 回答
4255 浏览

nosql - Cassandra 时间序列数据

我们正在研究使用 Cassandra 来存储来自各种来源的信息流。

我们面临的一个问题是在两个日期之间进行查询的最佳方式。

例如,我们需要检索 datetime dt1 和 datetime dt2 之间的对象。

我们目前正在考虑将创建的 unix 时间戳作为指向实际对象的键,然后使用 get_key_range 进行查询以检索?

显然,如果两个项目具有相同的时间戳,这将不起作用。

一般来说,这是在 noSQL 存储中执行日期时间的最佳方法吗?