问题标签 [dsbulk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
installation - Apache Cassandra 的 Datastax Bulk Loader 未安装
我已按照文档中的说明进行操作:https ://docs.datastax.com/en/dsbulk/doc/dsbulk/install/dsbulkInstall.html
但是,在执行以下操作后:
和
在应用程序目录中,然后是命令
我得到输出
我在这里做错了什么?
我正在使用 AWS ec2 t2.medium 实例 - 我必须在此安装 java 才能使 dsbulk 工作吗?
cassandra - Apache Cassandra 的 DataStax Bulk Loader 未在 Windows 上安装
我正在尝试在我的 Windows 机器上安装 DataStax Bulk Loader,以便将 json 文件导入 Cassandra 数据库。我只是按照官方网站的安装说明进行操作。它只是解压缩文件夹。dsbulk
从任何目录打印到cmd会打印以下结果: "dsbulk" is not internal or external command, executable program, or batch file.
但是我添加C:\DSBulk\dsbulk-1.7.0\bin
到 PATH 变量中。遇到这个问题的人你做了什么?感谢:D
cassandra - 如何运行 dsbulk 卸载并直接写入 S3
我想运行 dsbulk unload 命令,但我的 cassandra 集群在我要导出的表中有 ~1tb 的数据。有没有办法运行 dsbulk unload 命令并将数据流式传输到 s3 而不是写入磁盘?
我在我的开发环境中运行以下命令,但显然这只是写入我机器上的磁盘
bin/dsbulk unload -k myKeySpace -t myTable -url ~/data --connector.csv.compression gzip
cassandra - dsbulk 卸载丢失的数据
我正在使用dsbulk
1.6.0 从cassandra
3.11.3 卸载数据。
每次卸载都会导致截然不同的行数。这是在同一个集群上连接到同一个 cassandra 主机的 3 次卸载调用的结果。被卸载的表只会被追加,数据永远不会被删除,所以卸载的行数不会减少。集群中有 3 个 cassandra 数据库,复制因子为 3,因此所有数据都应存在于所选主机上。此外,这些都是快速连续执行的,添加的行数将是数百(如果有的话)而不是数万。
运行 1:
│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 10,937 | 7 | 97 | 15,935.46 | 20,937.97 | 20,937.97
│ 操作 UNLOAD_20201024-084213-097267 在 1 分 51 秒内完成了 7 个错误。
运行 2:
│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 60,558 | 3 | 266 | 12,551.34 | 21,609.05 | 21,609.05
│ 操作 UNLOAD_20201025-084208-749105 在 3 分 47 秒内完成了 3 个错误。
运行 3:
│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 45,404 | 4 | 211 | 16,664.92 | 30,870.08 | 30,870.08
│ 操作 UNLOAD_20201026-084206-791305 在 3 分 35 秒内完成 4 个错误。
似乎Run 1
缺少大部分数据。Run 2
可能更接近完成并且Run 3
缺少重要数据。
我调用卸载如下:
我假设这不是dsbulk
. 如何配置它以可靠地卸载完整的表而不会出错?
cassandra - 如何批量加载 Cassandra dsbulk 1.7 版
我正在尝试将一个大型 CSV (30 GB) 文件加载到我的集群中。我意识到我可能会超载我的 Cassandra 驱动程序,这导致它在加载过程中的某个时刻崩溃。我在加载数据时收到一条重复的消息,直到它停止的某个点并且我收到一个停止该过程的错误。
我当前的加载命令是:dsbulk load -url data.csv -k hotels -t reviews -delim '|' -header true -h '' -port 9042 -maxConcurrentQueries 128
使用 -maxConcurrentQueries 128 并没有改变任何错误。
知道如何修改命令以使其正常工作吗?
datastax - Datastax Bulk Loader 找不到我的 SSL 证书
在我的 Windows 机器上,我有 CQLSH 工作并使用 .cert 文件现在我开始使用 DSBulk,但无法让命令行知道在哪里可以找到我的证书。我在这里有一个证书文件:C:\myfolder\mycert.cer
这是我的命令行示例: dsbulk count --ssl -u "myusername" -p "mypassword" -h "123.12.123.12" -k "mykeyspace" -query "select count(*) from mytable;"
错误消息:操作失败:期望长或短选项,得到:'myusername'
我怀疑我需要修改命令参数以引用证书文件。任何建议将不胜感激!
cassandra - 为什么 DSBulk Load 可能会在没有任何错误的情况下停止操作?
我在 DataStax Astra 中创建了一个 Cassandra 数据库,并尝试在 Windows 中使用 DSBulk 加载一个 CSV 文件。但是,当我运行 dsbulk load 命令时,操作永远不会完成或失败。我根本没有收到错误消息,几分钟后我必须手动终止操作。我试图等待它,并让操作运行了 30 分钟或更长时间,但没有成功。
我知道免费的 Astra 层可能会运行得更慢,但我是否至少会看到一些迹象表明它正在尝试加载数据,即使速度很慢?
当我运行命令时,这是显示的输出,仅此而已:
我知道 DataStax 最近更改了 Astra,因此您需要来自生成的令牌的凭据来连接 DSBulk,但我有一个经典数据库实例,在 dsbulk load 命令中输入时不接受这些令牌凭据。所以,我使用我的常规用户/密码。
当我检查 DSBulk 日志时,唯一的文本是控制台中显示的相同输出,我已在上面的代码块中显示。
如果这意味着什么,我在尝试运行 dsbulk Count 操作时遇到了完全相同的问题。
我有最新的 JDK 并设置了JAVA_HOME
和PATH
变量。
我也尝试将 dsbulk/bin 目录添加到我的 PATH 变量中,但也没有成功。
我需要调整 Astra 实例中的任何设置吗?
最后,我的基本笔记本电脑是否可能根本不足以进行此操作,或者只是运行缓慢的操作?
非常感谢任何想法或帮助!
cassandra - dsbulk unload 在大表上失败
试图从一个巨大的表中卸载数据,下面是使用和输出的命令。
$ /home/cassandra/dsbulk-1.8.0/bin/dsbulk unload --driver.auth.provider PlainTextAuthProvider --driver.auth.username xxxx --driver.auth.password xxxx --datastax-java-driver.basic。接触点 123.123.123.123 -查询“从某个表中选择计数(*),其中包含聚类列和部分 pk 的位置——允许过滤”——connector.name json --driver.protocol.compression LZ4 --connector.json.mode MULTI_DOCUMENT -maxConcurrentFiles 1 -maxRecords -1 -url dsbulk --executor.continuousPaging.enabled false --executor.maxpersecond 2500 --driver.socket.timeout 240000
以下是 dsbulk 记录——
Cassandra 的 system.log 片段----
ubuntu - DSBulk 加载程序 1.8 版:加载和连接到 Apache Cassandra 时出错
我手动安装了 Apache Cassandra 和 DSBulk 加载程序,一切正常,但是当我尝试使用 DSBulk 加载数据时,似乎是 db 和 DSBulk 之间的连接问题。有人可以告诉我发生了什么,我该如何解决?奇怪,第一次看到这个错误。直到今天,这从未发生在我身上。
这里的错误:
尝试重新安装 DSBulk 后,它仍然存在。也许是java发生了什么?
我认为这是第一次发帖,这个问题很麻烦。
谢谢
根据收到的第一个答案
nodetool 状态正常
数据中心:datacenter1
listen_address 和 rpc_address 都是:localhost
cassandra - 是否可以使用 dsbulk 备份和恢复 Cassandra 集群?
nodetool snapshot
我在互联网上搜索了很多,看到了很多备份和恢复 Cassandra 集群的方法,例如Medusa
. 但我的问题是我可以dsbulk
用来备份 Cassandra 集群。它的局限性是什么?为什么没有人建议?