问题标签 [dsbulk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
145 浏览

installation - Apache Cassandra 的 Datastax Bulk Loader 未安装

我已按照文档中的说明进行操作:https ://docs.datastax.com/en/dsbulk/doc/dsbulk/install/dsbulkInstall.html

但是,在执行以下操作后:

在应用程序目录中,然后是命令

我得到输出

我在这里做错了什么?

我正在使用 AWS ec2 t2.medium 实例 - 我必须在此安装 java 才能使 dsbulk 工作吗?

0 投票
1 回答
151 浏览

cassandra - Apache Cassandra 的 DataStax Bulk Loader 未在 Windows 上安装

我正在尝试在我的 Windows 机器上安装 DataStax Bulk Loader,以便将 json 文件导入 Cassandra 数据库。我只是按照官方网站的安装说明进行操作。它只是解压缩文件夹。dsbulk从任何目录打印到cmd打印以下结果: "dsbulk" is not internal or external command, executable program, or batch file.但是我添加C:\DSBulk\dsbulk-1.7.0\bin到 PATH 变量中。遇到这个问题的人你做了什么?感谢:D

0 投票
1 回答
326 浏览

cassandra - 如何运行 dsbulk 卸载并直接写入 S3

我想运行 dsbulk unload 命令,但我的 cassandra 集群在我要导出的表中有 ~1tb 的数据。有没有办法运行 dsbulk unload 命令并将数据流式传输到 s3 而不是写入磁盘?

我在我的开发环境中运行以下命令,但显然这只是写入我机器上的磁盘

bin/dsbulk unload -k myKeySpace -t myTable -url ~/data --connector.csv.compression gzip

0 投票
1 回答
234 浏览

cassandra - dsbulk 卸载丢失的数据

我正在使用dsbulk1.6.0 从cassandra3.11.3 卸载数据。

每次卸载都会导致截然不同的行数。这是在同一个集群上连接到同一个 cassandra 主机的 3 次卸载调用的结果。被卸载的表只会被追加,数据永远不会被删除,所以卸载的行数不会减少。集群中有 3 个 cassandra 数据库,复制因子为 3,因此所有数据都应存在于所选主机上。此外,这些都是快速连续执行的,添加的行数将是数百(如果有的话)而不是数万。

运行 1:

│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 10,937 | 7 | 97 | 15,935.46 | 20,937.97 | 20,937.97
│ 操作 UNLOAD_20201024-084213-097267 在 1 分 51 秒内完成了 7 个错误。

运行 2:

│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 60,558 | 3 | 266 | 12,551.34 | 21,609.05 | 21,609.05
│ 操作 UNLOAD_20201025-084208-749105 在 3 分 47 秒内完成了 3 个错误。

运行 3:

│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 45,404 | 4 | 211 | 16,664.92 | 30,870.08 | 30,870.08
│ 操作 UNLOAD_20201026-084206-791305 在 3 分 35 秒内完成 4 个错误。

似乎Run 1缺少大部分数据。Run 2可能更接近完成并且Run 3缺少重要数据。

我调用卸载如下:

我假设这不是dsbulk. 如何配置它以可靠地卸载完整的表而不会出错?

0 投票
0 回答
59 浏览

cassandra - 如何批量加载 Cassandra dsbulk 1.7 版

我正在尝试将一个大型 CSV (30 GB) 文件加载到我的集群中。我意识到我可能会超载我的 Cassandra 驱动程序,这导致它在加载过程中的某个时刻崩溃。我在加载数据时收到一条重复的消息,直到它停止的某个点并且我收到一个停止该过程的错误。

在此处输入图像描述

我当前的加载命令是:dsbulk load -url data.csv -k hotels -t reviews -delim '|' -header true -h '' -port 9042 -maxConcurrentQueries 128

使用 -maxConcurrentQueries 128 并没有改变任何错误。

知道如何修改命令以使其正常工作吗?

0 投票
1 回答
168 浏览

datastax - Datastax Bulk Loader 找不到我的 SSL 证书

在我的 Windows 机器上,我有 CQLSH 工作并使用 .cert 文件现在我开始使用 DSBulk,但无法让命令行知道在哪里可以找到我的证书。我在这里有一个证书文件:C:\myfolder\mycert.cer

这是我的命令行示例: dsbulk count --ssl -u "myusername" -p "mypassword" -h "123.12.123.12" -k "mykeyspace" -query "select count(*) from mytable;"

错误消息:操作失败:期望长或短选项,得到:'myusername'

我怀疑我需要修改命令参数以引用证书文件。任何建议将不胜感激!

0 投票
0 回答
122 浏览

cassandra - 为什么 DSBulk Load 可能会在没有任何错误的情况下停止操作?

我在 DataStax Astra 中创建了一个 Cassandra 数据库,并尝试在 Windows 中使用 DSBulk 加载一个 CSV 文件。但是,当我运行 dsbulk load 命令时,操作永远不会完成或失败。我根本没有收到错误消息,几分钟后我必须手动终止操作。我试图等待它,并让操作运行了 30 分钟或更长时间,但没有成功。

我知道免费的 Astra 层可能会运行得更慢,但我是否至少会看到一些迹象表明它正在尝试加载数据,即使速度很慢?

当我运行命令时,这是显示的输出,仅此而已:

我知道 DataStax 最近更改了 Astra,因此您需要来自生成的令牌的凭据来连接 DSBulk,但我有一个经典数据库实例,在 dsbulk load 命令中输入时不接受这些令牌凭据。所以,我使用我的常规用户/密码。

当我检查 DSBulk 日志时,唯一的文本是控制台中显示的相同输出,我已在上面的代码块中显示。

如果这意味着什么,我在尝试运行 dsbulk Count 操作时遇到了完全相同的问题。

我有最新的 JDK 并设置了JAVA_HOMEPATH变量。

我也尝试将 dsbulk/bin 目录添加到我的 PATH 变量中,但也没有成功。

我需要调整 Astra 实例中的任何设置吗?

最后,我的基本笔记本电脑是否可能根本不足以进行此操作,或者只是运行缓慢的操作?

非常感谢任何想法或帮助!

0 投票
2 回答
307 浏览

cassandra - dsbulk unload 在大表上失败

试图从一个巨大的表中卸载数据,下面是使用和输出的命令。

$ /home/cassandra/dsbulk-1.8.0/bin/dsbulk unload --driver.auth.provider PlainTextAuthProvider --driver.auth.username xxxx --driver.auth.password xxxx --datastax-java-driver.basic。接触点 123.123.123.123 -查询“从某个表中选择计数(*),其中包含聚类列和部分 pk 的位置——允许过滤”——connector.name json --driver.protocol.compression LZ4 --connector.json.mode MULTI_DOCUMENT -maxConcurrentFiles 1 -maxRecords -1 -url dsbulk --executor.continuousPaging.enabled false --executor.maxpersecond 2500 --driver.socket.timeout 240000

以下是 dsbulk 记录——

Cassandra 的 system.log 片段----

0 投票
1 回答
348 浏览

ubuntu - DSBulk 加载程序 1.8 版:加载和连接到 Apache Cassandra 时出错

我手动安装了 Apache Cassandra 和 DSBulk 加载程序,一切正常,但是当我尝试使用 DSBulk 加载数据时,似乎是 db 和 DSBulk 之间的连接问题。有人可以告诉我发生了什么,我该如何解决?奇怪,第一次看到这个错误。直到今天,这从未发生在我身上。

这里的错误:

尝试重新安装 DSBulk 后,它仍然存在。也许是java发生了什么?

我认为这是第一次发帖,这个问题很麻烦。

谢谢

根据收到的第一个答案

  1. nodetool 状态正常

    数据中心:datacenter1

  2. listen_address 和 rpc_address 都是:localhost

0 投票
1 回答
70 浏览

cassandra - 是否可以使用 dsbulk 备份和恢复 Cassandra 集群?

nodetool snapshot我在互联网上搜索了很多,看到了很多备份和恢复 Cassandra 集群的方法,例如Medusa. 但我的问题是我可以dsbulk用来备份 Cassandra 集群。它的局限性是什么?为什么没有人建议?