“dsbulk”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

732 浏览

cassandra - Cassandra 批量加载 dsbulk - 设置加载问题

尝试使用 dsbulk 实用程序将 csv 文件加载到 dse cassandra。如果列被定义为设置，我会遇到问题。

复制命令成功加载 "{'bible', 'moses', 'ramses'}" & "{'televison'}" 。但是，当 com.datastax.driver.core.exceptions.InvalidTypeException 有多个值时，dsbulk 会失败：无法解析为 Json。

数据文件为： https ://github.com/KillrVideo/killrvideo-cdm/blob/master/data/videos.csv

命令：

com.datastax.driver.core.exceptions.InvalidTypeException：无法解析'{'阿姨'，'黑色刻板印象'，'衬衫上的血'，'butt bolo'，'胸部'，'家庭死亡'，'闪光灯' , '踢脸', '手淫', '装修', '刺中'}' as Json

2018-09-21T07:52:11.970

0 投票

1 回答

394 浏览

cassandra - 如何在 mac 上安装 dsbulk？

我一直在关注安装 dsbulk loader 的官方文档，但徒劳无功。在文档中，它说下载并安装，但所指示的只是下载并解压缩 zip 文件。但是，在任何下载和提取它的目录中键入dsbulk都不起作用。我收到一个错误： zsh: command not found: dsbulk

cassandra datastax dsbulk

2019-01-20T20:13:35.320

0 投票

1 回答

282 浏览

cassandra - DataStax DSBulk - 查询/表卸载之间的区别

我正在使用 dsbulk 尝试从我们的 cassandra 集群中提取一些数据，并看到一些奇怪的行为。试图了解这是否是预期的。

如果我通过指定表空间和表执行卸载，我看到的结果与我执行查询卸载指定的结果不同（更少）select * from table。

我认为这可能是集群内的一致性问题，但我尝试了各种一致性级别，结果在 ONE 和 ALL 之间的所有级别上都是相同的。

任何人都知道这是否是预期的行为？直接表提取的速度大约快 2 倍，因此如果可能的话，我更愿意这样做。

cassandra datastax dsbulk

2019-02-12T16:38:40.337

0 投票

2 回答

563 浏览

cassandra - 使用 dsbulk 在 cassandra 中加载数据时出现问题

使用 dsbulk 将数据从 .csv 文件加载到表中时遇到问题。我在错误日志中得到如下所示。

引起：com.datastax.driver.core.exceptions.OperationTimedOutException：[/10.0.126.13:9042] 等待服务器响应超时

这个环境是我们的3个节点，8个CPU，64G内存的POC环境。根据我的观察，当我运行 dsbulk 命令时，它会耗尽服务器上的所有 CPU，并且内存消耗也很高。

如果你能给我一个微调 dsbulk 的指针，通过它可以减少 cpu 使用/内存消耗。如果此操作变慢并且我获得可管理的性能，我可以接受。

cassandra datastax-enterprise dsbulk

2019-03-21T21:48:19.377

0 投票

1 回答

112 浏览

cassandra - DSBulk 与 ScyllaDB

我正在尝试使用 DSBulk 将数据加载到 ScyllaDB 中。我知道正式 DSBulk 不支持 Scylla，但我发现有人使用它而不是 cqlsh 的帖子。

当我尝试连接时，我总是收到此错误init query OPTIONS: error writing )

有没有人用过它和 Scylla 并知道如何解决这个问题？

这是帖子： http: //mail-archives.apache.org/mod_mbox/cassandra-user/201903.mbox/%3CCALrZ4T1wkpyKcinfo6N_pAPXyn-gkV2FbkkM3ot8XOUAKd4cUQ@mail.gmail.com%3E

cassandra cqlsh scylla dsbulk

2020-02-26T15:20:51.540

0 投票

1 回答

758 浏览

cassandra - dsbulk 卸载问题

我在使用 dsbulk 卸载时收到以下消息。我无法弄清楚这意味着什么

[s0|347101951|0] 发送取消请求时出错。这并不重要（请求最终会在服务器端超时）。（心跳异常：空）

未发送心跳，因为前一个仍在进行中。检查advanced.heartbeat.interval 是否不低于advanced.heartbeat.timeout。

谢谢

cassandra runtime-error datastax bulk dsbulk

2020-04-15T06:52:57.940

0 投票

2 回答

199 浏览

cassandra - 使用 dsbulk 将数据加载到 Cassandra 的第一步

我正在按照本指南设置 dsbulk：https ://docs.datastax.com/en/dsbulk/doc/dsbulk/dsbulkSimpleLoad.html

我在这部分感到困惑：

那在哪里secure-connect-database_name.zip或者我应该如何生成它？

我并不是都热衷于使用上面的方法，所以如果有一种方法可以在命令中传递所有参数，那对我来说会更好。

cassandra datastax dsbulk

2020-05-13T17:19:37.227

0 投票

0 回答

238 浏览

cassandra - 使用 dsbulk 将 json 数据加载到 Cassandra

我觉得 dsbulk 文档中确实缺少将 json 文件加载到 cassandra 中的文档。

这是我试图加载的 json 文件的一部分：

我一直在尝试加载的方式如下： dsbulk load -url ./data_so1.json -k stackoverflow_t -t staging_t -h '182.14.0.1' -header false -u username -p password

这是我得到的最接近的值，它将值逐行推送到 Cassandra，如下所示：

这只是按原样获取行（包括逗号）。我已经尝试使用 -m 键进行映射，但并没有真正使用它。

将这些值放到各自的列中的正确方法是什么？

cassandra datastax dsbulk

2020-05-16T16:35:57.887

0 投票

1 回答

146 浏览

amazon-ec2 - 如何使用 DSBulk Loader 将数据导入 EC2 上的 Cassandra

我正在尝试使用 dsbulk 加载程序将数据导入 EC2 上的 Cassandra。我有三个节点配置和通信如下：

我正在尝试运行以下命令将 csv 文件导入我的数据库：

我不断收到以下错误：

连接到节点时出错（endPoint=/172.31.23.23:9042，hostId=null，hashCode=b9b80b7）

无法联系到任何联系人，请确保您提供了有效地址

我正在从集群外部运行导入，但在同一个 EC2 实例中。在每个节点上，我将listen_address 和rpc_address 设置为其privateIP。端口 9042 已打开 - 所有三个节点都在同一个区域内，我使用的是 Ec2Snitch。每个节点都在 ubuntu v18.04 服务器上运行。

在运行命令之前，我已确保我的每个节点都已启动，并且我的 .csv 文件的路径是正确的。似乎当我运行 dsbulk 命令时，我使用 -h 标志指定的节点立即关闭。我缺少的配置可能有问题吗？DSBulk 加载器在本地运行良好，但是否有更理想的方法从 EC2 实例中的 csv 文件导入数据？谢谢！

编辑：我已经能够使用 dsbulk 加载程序分块加载数据，但该过程偶尔会被此错误中断：

[s0|/xxx.xx.xx.xxx:9042] 打开新频道时出错

我目前解释的方式是指定 IP 的节点已用完存储空间并崩溃，导致任何后续 dsbulk 操作失败。到目前为止，解决方法是从 /var/log/cassandra 中清除多余的日志文件并重新启动节点，但我认为更好的方法是增加每个实例的 SSD。

amazon-ec2 cassandra dsbulk

2020-06-03T06:11:28.283

0 投票

1 回答

262 浏览

python - 在 python 中使用 dsbulk 加载

我在 DataStax Astra 中创建了一个 Cassandra 数据库。我可以在 Python 中连接到它（使用cassandra-driver模块和secure_connect_bundle）。我在我的 Python 应用程序中编写了一些 api 来查询数据库。

我读到我可以使用dsbulk. 我能够在终端中运行以下命令并且它可以工作。

然后我尝试使用以下命令在 Python 中运行同一行subprocess：

但我得到了FileNotFoundError: [Errno 2] No such file or directory: 'dsbulk': 'dsbulk'。dsbulk如果我从 Python 运行它，为什么无法识别？

一个相关的问题，依赖subprocess. 有没有更好的方法将批处理数据上传到 Cassandra？

python cassandra dsbulk datastax-astra

2020-08-18T20:17:46.403

问题标签 [dsbulk]

Reference