问题标签 [datastax]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Pig & Cassandra & DataStax 拆分控制
我一直在使用 Pig 和我的 Cassandra 数据来完成各种惊人的分组壮举,而这些壮举几乎不可能用命令式编写。我正在使用 DataStax 的 Hadoop 和 Cassandra 集成,我不得不说它非常令人印象深刻。向那些家伙致敬!!
我有一个非常小的沙盒集群(2 个节点),我正在对这个系统进行一些测试。我有一个 CQL 表,它有约 53M 行(大约 350 字节 ea。),我注意到 Mapper 稍后需要很长时间才能通过这 53M 行。我开始查看原木,我可以看到地图反复溢出(我从映射器中看到 177 次溢出),我认为这是问题的一部分。
CassandraInputFormat 和 JobConfig 的组合只创建了一个映射器,所以这个映射器必须从表中读取 100% 的行。我称之为反平行:)
现在,这张照片中有很多齿轮在起作用,包括:
- 2个物理节点
- hadoop 节点位于“分析”DC(默认配置)中,但物理上位于同一机架中。
- 我可以使用 LOCAL_QUORUM 查看作业
任何人都可以指出如何让 Pig 创建更多输入拆分以便我可以运行更多映射器的方向吗?我有 23 个插槽;似乎很遗憾一直只使用一个。
或者,我完全疯了,不明白这个问题?我欢迎这两种答案!
cassandra - 在 Windows 上使用 DataStax 更正 CLI/CQL SH 的语法 - 可能存在差异?
我在 Windows 8 上使用 DataStax Cassandra 社区版。我正在关注文档 - http://www.datastax.com/2012/01/getting-started-with-apache-cassandra-on-windows-the-easy-方法
在 Windows 中,有两个命令行实用程序 1. CLI 和 2. CQL Shell。它们的语法不同,例如,您可以从帮助菜单中看到,要创建键空间,CLI => 创建键空间,而在 CQL Shell => CREATE_KEYSPACE
但是,根据文档,以下行在 CQL Shell 中运行良好,同时在 CLI 实用程序中给出异常。
这是一个差异吗?“创建键空间”样式语句应该在 CLI 中工作,如其帮助菜单中给出的那样,但它在帮助菜单中的语法为 CREATE_KEYSPACE 的 CQL Shell 中工作。
cassandra - 无法在 opscenter 中添加集群,出现无法连接到集群的错误
我正在尝试使用 datastax 企业创建一个 datastax 集群。我已经更改了节点的 Cassandra.yaml 并在节点上启动了 Cassandra 和 opscenter。
我可以通过网络浏览器连接到 opscenter。但是,当我尝试执行“添加集群”并放置该特定主机 IP 时,它会显示错误消息“创建集群时出错:无法连接到集群”
我可以在 opscenter 日志中看到以下文本
有人可以帮我解决这个问题吗?
杰尼什
python - 使用datastax python-driver从cassandra获取正确的时间戳
我正在使用datastax python-driver从表中检索时间戳。我想要做的是将先前检索到的时间戳存储在 var 中,并在下一个查询中使用它来检索大于前一个时间戳的时间戳。查询基本上如下所示:
如您所见,来自 CQL 的时间戳是2013-10-30 10:32:45+0530
. 但是当我通过 python-driver 检索它时,结果是不同的(我在不同的系统上执行 python 查询,而不是在任何 cass 节点上):
如您所见,python-driver 的时间戳是2013-10-30 05:02:45.004000
,这与 CQL 不同。不仅时间不同,而且表现形式也发生了变化。这不能用于在后续查询中进行比较。
问题
- 在 python 中检索时间戳时我做错了什么?
- 有没有办法将纪元时间输出为 int 而不是 datetime 格式?
- 这与时钟同步或时区有关吗?
- 谁能帮我解决这个问题,以便可以重复使用 python 检索到的时间戳来与 cass 时间戳进行比较?
提前致谢。感谢你的帮助
设置
- 运行 vms 的单主机;
- cass 沙箱 - 作为单个 dc 集群运行的 3 个无头虚拟机;
- 从主机执行的python代码;
- 使用 ntp 与主机同步的虚拟机日期、时间
- [cqlsh 4.0.0 | 卡桑德拉 2.0.0 | CQL 规范 3.1.0 | 节俭协议 19.37.0]
cassandra - 在cassandra中的复制键下?
谁能告诉我如何检查 cassandra 中复制不足的密钥?
我知道如何检查密钥空间的复制因子和用于修复的“nodetool repair”,但我无法找到我的哪些密钥在我的集群中复制不足。
谢谢。
cassandra - 在集群中启动时,datastax 企业异常崩溃
我正在尝试设置 DSE 集群。我的种子节点工作正常,但是当我尝试在集群节点上运行 DSE 服务时,它会崩溃并出现异常
错误 09:46:47,271 在启动 java.lang.IllegalStateException 期间遇到异常:无法联系任何种子!在 org.apache.cassandra.service.StorageService.bootstrap(StorageService.java:947) 在 org.apache.cassandra.service.StorageService.joinTokenRing(StorageService.java:716) 在 org.apache.cassandra.service.StorageService.initServer (StorageService.java:554) 在 org.apache.cassandra.service.StorageService.initServer(StorageService.java:451) 在 org.apache.cassandra.service.CassandraDaemon.setup(CassandraDaemon.java:347) 在 com.datastax。 bdp.server.DseDaemon.setup(DseDaemon.java:137) 在 org.apache.cassandra.service.CassandraDaemon.activate(CassandraDaemon.java:446) 在 com.datastax.bdp.server.DseDaemon.main(DseDaemon.java: 334)java.lang.IllegalStateException:无法联系任何种子!在 org.apache.cassandra.service.StorageService.bootstrap(StorageService.java:947) 在 org.apache.cassandra.service.StorageService.joinTokenRing(StorageService.java:716) 在 org.apache.cassandra.service.StorageService.initServer (StorageService.java:554) 在 org.apache.cassandra.service.StorageService.initServer(StorageService.java:451) 在 org.apache.cassandra.service.CassandraDaemon.setup(CassandraDaemon.java:347) 在 com.datastax。 bdp.server.DseDaemon.setup(DseDaemon.java:137) 在 org.apache.cassandra.service.CassandraDaemon.activate(CassandraDaemon.java:446) 在 com.datastax.bdp.server.DseDaemon.main(DseDaemon.java: 334)启动过程中遇到异常:无法联系任何种子!错误 09:46:47,279 线程 Thread[StorageServiceShutdownHook,5,main] java.lang 中的异常。
有人可以帮我解决这个问题吗?
杰尼什
cassandra - 无法在 Windows 中形成两个节点的 Cassandra 集群?
我正在尝试在我的 Windows 机器上设置两个 Cassandra 集群节点。基本上,我有两台windows机器。在我的两台机器上,我都从 Datastax 安装了 Cassandra 1.2.11。现在我正在按照本教程设置两个节点 Cassandra 集群。
将 Cassandra 安装到这两台机器后,我停止了这两台机器中 Cassandra 服务器、DataStax OpsCenter 和 DataStax OpsCenter 代理的服务。
然后我开始在 yaml 文件中进行更改 -
我的第一个节点详细信息是 -
我的第二个节点详细信息是 -
启动服务器服务后,我的两个服务都正常启动。但是他们不是以某种方式形成了一个由两个节点组成的集群吗?我在这里有什么遗漏吗?
Machine-A Nodetool信息-
Machine-B Nodetool 信息-
我的两台笔记本电脑都运行 Windows 7 64 位,并在同一个 Wi-Fi 网络上,彼此相邻。
cassandra - 插入后的意外值
我有一个用 python 编写的脚本,应该更新 Cassandra 中的计数器。它就像一个批纠正计数器。
脚本所做的是:获取应该在数据库中的真实值,获取在数据库中持久保存的当前值,计算值之间的差异,最后将插入命令发送到传递差异的特定行键以更新计数器。
一切正常。我得到了正确的值和差异,但是在插入命令之后,行键的值不是预期的。
我发送了通过 diff=5000 的插入命令,因此预期的新 DB 值应该是 35000。但有时新的 DB 值是一个疯狂的负数,例如 -360.000。这没有任何意义,因为没有任何值和运算符的组合可以产生这样的值。
而且,如果我再次运行脚本,最终的持久值是正确的。如果我稍后再试一次,最终的持久值再次出现错误......
谁能帮我这个 ?相同的脚本有时可以正常工作,有时会保持疯狂的价值。
谢谢 !
apache-pig - PigLatin 重命名元组
我正在加载数据并创建一个元组:
后来我想重命名元组,这样我就有了
有没有可能?
hadoop - 数行 Cassandra->Hadoop 输入不同
我在 2 节点集群上有一个具有 147.968 行的 ColumnFamily(显示“nodetool cfstats”)。
如果我执行我的 Hadoop 作业,他在“地图输入记录”上只显示 90.174 行?我的 Hadoop CQL 输入配置是:
还有什么要配置的吗?