“dsbulk”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

145 浏览

installation - Apache Cassandra 的 Datastax Bulk Loader 未安装

我已按照文档中的说明进行操作：https ://docs.datastax.com/en/dsbulk/doc/dsbulk/install/dsbulkInstall.html

但是，在执行以下操作后：

和

在应用程序目录中，然后是命令

我得到输出

我在这里做错了什么？

我正在使用 AWS ec2 t2.medium 实例 - 我必须在此安装 java 才能使 dsbulk 工作吗？

2020-08-23T19:09:38.447

0 投票

1 回答

151 浏览

cassandra - Apache Cassandra 的 DataStax Bulk Loader 未在 Windows 上安装

我正在尝试在我的 Windows 机器上安装 DataStax Bulk Loader，以便将 json 文件导入 Cassandra 数据库。我只是按照官方网站的安装说明进行操作。它只是解压缩文件夹。dsbulk从任何目录打印到cmd会打印以下结果： "dsbulk" is not internal or external command, executable program, or batch file.但是我添加C:\DSBulk\dsbulk-1.7.0\bin到 PATH 变量中。遇到这个问题的人你做了什么？感谢：D

cassandra datastax dsbulk

2020-10-09T10:49:47.143

0 投票

1 回答

326 浏览

cassandra - 如何运行 dsbulk 卸载并直接写入 S3

我想运行 dsbulk unload 命令，但我的 cassandra 集群在我要导出的表中有 ~1tb 的数据。有没有办法运行 dsbulk unload 命令并将数据流式传输到 s3 而不是写入磁盘？

我在我的开发环境中运行以下命令，但显然这只是写入我机器上的磁盘

bin/dsbulk unload -k myKeySpace -t myTable -url ~/data --connector.csv.compression gzip

cassandra datastax dsbulk

2020-10-21T01:05:13.080

0 投票

1 回答

234 浏览

cassandra - dsbulk 卸载丢失的数据

我正在使用dsbulk1.6.0 从cassandra3.11.3 卸载数据。

每次卸载都会导致截然不同的行数。这是在同一个集群上连接到同一个 cassandra 主机的 3 次卸载调用的结果。被卸载的表只会被追加，数据永远不会被删除，所以卸载的行数不会减少。集群中有 3 个 cassandra 数据库，复制因子为 3，因此所有数据都应存在于所选主机上。此外，这些都是快速连续执行的，添加的行数将是数百（如果有的话）而不是数万。

运行 1：

│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 10,937 | 7 | 97 | 15,935.46 | 20,937.97 | 20,937.97
│ 操作 UNLOAD_20201024-084213-097267 在 1 分 51 秒内完成了 7 个错误。

运行 2：

│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 60,558 | 3 | 266 | 12,551.34 | 21,609.05 | 21,609.05
│ 操作 UNLOAD_20201025-084208-749105 在 3 分 47 秒内完成了 3 个错误。

运行 3：

│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 45,404 | 4 | 211 | 16,664.92 | 30,870.08 | 30,870.08
│ 操作 UNLOAD_20201026-084206-791305 在 3 分 35 秒内完成 4 个错误。

似乎Run 1缺少大部分数据。Run 2可能更接近完成并且Run 3缺少重要数据。

我调用卸载如下：

我假设这不是dsbulk. 如何配置它以可靠地卸载完整的表而不会出错？

cassandra dsbulk

2020-10-26T18:04:10.967

0 投票

0 回答

59 浏览

cassandra - 如何批量加载 Cassandra dsbulk 1.7 版

我正在尝试将一个大型 CSV (30 GB) 文件加载到我的集群中。我意识到我可能会超载我的 Cassandra 驱动程序，这导致它在加载过程中的某个时刻崩溃。我在加载数据时收到一条重复的消息，直到它停止的某个点并且我收到一个停止该过程的错误。

我当前的加载命令是：dsbulk load -url data.csv -k hotels -t reviews -delim '|' -header true -h '' -port 9042 -maxConcurrentQueries 128

使用 -maxConcurrentQueries 128 并没有改变任何错误。

知道如何修改命令以使其正常工作吗？

cassandra datastax cassandra-3.0 dsbulk

2020-10-31T03:32:46.723

0 投票

1 回答

168 浏览

datastax - Datastax Bulk Loader 找不到我的 SSL 证书

在我的 Windows 机器上，我有 CQLSH 工作并使用 .cert 文件现在我开始使用 DSBulk，但无法让命令行知道在哪里可以找到我的证书。我在这里有一个证书文件：C:\myfolder\mycert.cer

这是我的命令行示例： dsbulk count --ssl -u "myusername" -p "mypassword" -h "123.12.123.12" -k "mykeyspace" -query "select count(*) from mytable;"

错误消息：操作失败：期望长或短选项，得到：'myusername'

我怀疑我需要修改命令参数以引用证书文件。任何建议将不胜感激！

datastax dsbulk

2021-01-04T21:14:33.237

0 投票

0 回答

122 浏览

cassandra - 为什么 DSBulk Load 可能会在没有任何错误的情况下停止操作？

我在 DataStax Astra 中创建了一个 Cassandra 数据库，并尝试在 Windows 中使用 DSBulk 加载一个 CSV 文件。但是，当我运行 dsbulk load 命令时，操作永远不会完成或失败。我根本没有收到错误消息，几分钟后我必须手动终止操作。我试图等待它，并让操作运行了 30 分钟或更长时间，但没有成功。

我知道免费的 Astra 层可能会运行得更慢，但我是否至少会看到一些迹象表明它正在尝试加载数据，即使速度很慢？

当我运行命令时，这是显示的输出，仅此而已：

我知道 DataStax 最近更改了 Astra，因此您需要来自生成的令牌的凭据来连接 DSBulk，但我有一个经典数据库实例，在 dsbulk load 命令中输入时不接受这些令牌凭据。所以，我使用我的常规用户/密码。

当我检查 DSBulk 日志时，唯一的文本是控制台中显示的相同输出，我已在上面的代码块中显示。

如果这意味着什么，我在尝试运行 dsbulk Count 操作时遇到了完全相同的问题。

我有最新的 JDK 并设置了JAVA_HOME和PATH变量。

我也尝试将 dsbulk/bin 目录添加到我的 PATH 变量中，但也没有成功。

我需要调整 Astra 实例中的任何设置吗？

最后，我的基本笔记本电脑是否可能根本不足以进行此操作，或者只是运行缓慢的操作？

非常感谢任何想法或帮助！

cassandra datastax cassandra-3.0 dsbulk datastax-astra

2021-04-07T15:44:53.617

0 投票

2 回答

307 浏览

cassandra - dsbulk unload 在大表上失败

试图从一个巨大的表中卸载数据，下面是使用和输出的命令。

$ /home/cassandra/dsbulk-1.8.0/bin/dsbulk unload --driver.auth.provider PlainTextAuthProvider --driver.auth.username xxxx --driver.auth.password xxxx --datastax-java-driver.basic。接触点 123.123.123.123 -查询“从某个表中选择计数（*），其中包含聚类列和部分 pk 的位置——允许过滤”——connector.name json --driver.protocol.compression LZ4 --connector.json.mode MULTI_DOCUMENT -maxConcurrentFiles 1 -maxRecords -1 -url dsbulk --executor.continuousPaging.enabled false --executor.maxpersecond 2500 --driver.socket.timeout 240000

以下是 dsbulk 记录——

Cassandra 的 system.log 片段----

cassandra dsbulk

2021-04-24T07:15:39.397

0 投票

1 回答

348 浏览

ubuntu - DSBulk 加载程序 1.8 版：加载和连接到 Apache Cassandra 时出错

我手动安装了 Apache Cassandra 和 DSBulk 加载程序，一切正常，但是当我尝试使用 DSBulk 加载数据时，似乎是 db 和 DSBulk 之间的连接问题。有人可以告诉我发生了什么，我该如何解决？奇怪，第一次看到这个错误。直到今天，这从未发生在我身上。

这里的错误：

尝试重新安装 DSBulk 后，它仍然存在。也许是java发生了什么？

我认为这是第一次发帖，这个问题很麻烦。

谢谢

根据收到的第一个答案

nodetool 状态正常

数据中心：datacenter1
listen_address 和 rpc_address 都是：localhost

ubuntu cassandra datastax-enterprise cassandra-3.0 dsbulk

2021-05-05T09:30:22.137

0 投票

1 回答

70 浏览

cassandra - 是否可以使用 dsbulk 备份和恢复 Cassandra 集群？

nodetool snapshot我在互联网上搜索了很多，看到了很多备份和恢复 Cassandra 集群的方法，例如Medusa. 但我的问题是我可以dsbulk用来备份 Cassandra 集群。它的局限性是什么？为什么没有人建议？

cassandra backup snapshot nodetool dsbulk

2021-09-28T15:35:10.760

问题标签 [dsbulk]

Reference