问题标签 [dsbulk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
732 浏览

cassandra - Cassandra 批量加载 dsbulk - 设置加载问题

尝试使用 dsbulk 实用程序将 csv 文件加载到 dse cassandra。如果列被定义为设置,我会遇到问题。

复制命令成功加载 "{'bible', 'moses', 'ramses'}" & "{'televison'}" 。但是,当 com.datastax.driver.core.exceptions.InvalidTypeException 有多个值时,dsbulk 会失败:无法解析为 Json。

数据文件为: https ://github.com/KillrVideo/killrvideo-cdm/blob/master/data/videos.csv

命令:

com.datastax.driver.core.exceptions.InvalidTypeException:无法解析'{'阿姨','黑色刻板印象','衬衫上的血','butt bolo','胸部','家庭死亡','闪光灯' , '踢脸', '手淫', '装修', '刺中'}' as Json

0 投票
1 回答
394 浏览

cassandra - 如何在 mac 上安装 dsbulk?

我一直在关注安装 dsbulk loader 的官方文档,但徒劳无功。在文档中,它说下载并安装,但所指示的只是下载并解压缩 zip 文件。但是,在任何下载和提取它的目录中键入dsbulk都不起作用。我收到一个错误: zsh: command not found: dsbulk

0 投票
1 回答
282 浏览

cassandra - DataStax DSBulk - 查询/表卸载之间的区别

我正在使用 dsbulk 尝试从我们的 cassandra 集群中提取一些数据,并看到一些奇怪的行为。试图了解这是否是预期的。

如果我通过指定表空间和表执行卸载,我看到的结果与我执行查询卸载指定的结果不同(更少)select * from table

我认为这可能是集群内的一致性问题,但我尝试了各种一致性级别,结果在 ONE 和 ALL 之间的所有级别上都是相同的。

任何人都知道这是否是预期的行为?直接表提取的速度大约快 2 倍,因此如果可能的话,我更愿意这样做。

0 投票
2 回答
563 浏览

cassandra - 使用 dsbulk 在 cassandra 中加载数据时出现问题

使用 dsbulk 将数据从 .csv 文件加载到表中时遇到问题。我在错误日志中得到如下所示。

引起:com.datastax.driver.core.exceptions.OperationTimedOutException:[/10.0.126.13:9042] 等待服务器响应超时

这个环境是我们的3个节点,8个CPU,64G内存的POC环境。根据我的观察,当我运行 dsbulk 命令时,它会耗尽服务器上的所有 CPU,并且内存消耗也很高。

如果你能给我一个微调 dsbulk 的指针,通过它可以减少 cpu 使用/内存消耗。如果此操作变慢并且我获得可管理的性能,我可以接受。

0 投票
1 回答
112 浏览

cassandra - DSBulk 与 ScyllaDB

我正在尝试使用 DSBulk 将数据加载到 ScyllaDB 中。我知道正式 DSBulk 不支持 Scylla,但我发现有人使用它而不是 cqlsh 的帖子。

当我尝试连接时,我总是收到此错误init query OPTIONS: error writing )

有没有人用过它和 Scylla 并知道如何解决这个问题?

这是帖子: http: //mail-archives.apache.org/mod_mbox/cassandra-user/201903.mbox/%3CCALrZ4T1wkpyKcinfo6N_pAPXyn-gkV2FbkkM3ot8XOUAKd4cUQ@mail.gmail.com%3E

0 投票
1 回答
758 浏览

cassandra - dsbulk 卸载问题

我在使用 dsbulk 卸载时收到以下消息。我无法弄清楚这意味着什么

[s0|347101951|0] 发送取消请求时出错。这并不重要(请求最终会在服务器端超时)。(心跳异常:空)

未发送心跳,因为前一个仍在进行中。检查advanced.heartbeat.interval 是否不低于advanced.heartbeat.timeout。

谢谢

0 投票
2 回答
199 浏览

cassandra - 使用 dsbulk 将数据加载到 Cassandra 的第一步

我正在按照本指南设置 dsbulk:https ://docs.datastax.com/en/dsbulk/doc/dsbulk/dsbulkSimpleLoad.html

我在这部分感到困惑:

那在哪里secure-connect-database_name.zip或者我应该如何生成它?

我并不是都热衷于使用上面的方法,所以如果有一种方法可以在命令中传递所有参数,那对我来说会更好。

0 投票
0 回答
238 浏览

cassandra - 使用 dsbulk 将 json 数据加载到 Cassandra

我觉得 dsbulk 文档中确实缺少将 json 文件加载到 cassandra 中的文档。

这是我试图加载的 json 文件的一部分:

我一直在尝试加载的方式如下: dsbulk load -url ./data_so1.json -k stackoverflow_t -t staging_t -h '182.14.0.1' -header false -u username -p password

这是我得到的最接近的值,它将值逐行推送到 Cassandra,如下所示:

这只是按原样获取行(包括逗号)。我已经尝试使用 -m 键进行映射,但并没有真正使用它。

将这些值放到各自的列中的正确方法是什么?

0 投票
1 回答
146 浏览

amazon-ec2 - 如何使用 DSBulk Loader 将数据导入 EC2 上的 Cassandra

我正在尝试使用 dsbulk 加载程序将数据导入 EC2 上的 Cassandra。我有三个节点配置和通信如下:

我正在尝试运行以下命令将 csv 文件导入我的数据库:

我不断收到以下错误:

连接到节点时出错(endPoint=/172.31.23.23:9042,hostId=null,hashCode=b9b80b7)

无法联系到任何联系人,请确保您提供了有效地址

我正在从集群外部运行导入,但在同一个 EC2 实例中。在每个节点上,我将listen_address 和rpc_address 设置为其privateIP。端口 9042 已打开 - 所有三个节点都在同一个区域内,我使用的是 Ec2Snitch。每个节点都在 ubuntu v18.04 服务器上运行。

在运行命令之前,我已确保我的每个节点都已启动,并且我的 .csv 文件的路径是正确的。似乎当我运行 dsbulk 命令时,我使用 -h 标志指定的节点立即关闭。我缺少的配置可能有问题吗?DSBulk 加载器在本地运行良好,但是否有更理想的方法从 EC2 实例中的 csv 文件导入数据?谢谢!

编辑:我已经能够使用 dsbulk 加载程序分块加载数据,但该过程偶尔会被此错误中断:

[s0|/xxx.xx.xx.xxx:9042] 打开新频道时出错

我目前解释的方式是指定 IP 的节点已用完存储空间并崩溃,导致任何后续 dsbulk 操作失败。到目前为止,解决方法是从 /var/log/cassandra 中清除多余的日志文件并重新启动节点,但我认为更好的方法是增加每个实例的 SSD。

0 投票
1 回答
262 浏览

python - 在 python 中使用 dsbulk 加载

我在 DataStax Astra 中创建了一个 Cassandra 数据库。我可以在 Python 中连接到它(使用cassandra-driver模块和secure_connect_bundle)。我在我的 Python 应用程序中编写了一些 api 来查询数据库。

我读到我可以使用dsbulk. 我能够在终端中运行以下命令并且它可以工作。

然后我尝试使用以下命令在 Python 中运行同一行subprocess

但我得到了FileNotFoundError: [Errno 2] No such file or directory: 'dsbulk': 'dsbulk'dsbulk如果我从 Python 运行它,为什么无法识别?


一个相关的问题,依赖subprocess. 有没有更好的方法将批处理数据上传到 Cassandra?