“rapids”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

95 浏览

pandas - cuDF：Pandas Groupby + Shift 的替代方案？

我有一个想要使用 Groupby + Shift 的 DF。我可以在 pandas 中执行此操作，但我无法在 cuDF 中执行此操作，因为它尚未实现：请参阅问题Issue #7183。功能请求是很久以前的，所以他们似乎不会在不久的将来实现这个。有没有替代方法？

2021-03-30T02:23:28.907

0 投票

0 回答

150 浏览

python - 我可以将物理 GPU 拆分为多个逻辑/虚拟 GPU 并将它们传递给 dask_cuda.LocalCUDACluster 吗？

我有一个从 GPU 加速中受益匪浅的工作流程，但每个任务的内存要求相对较低（2-4 GB）。我正在使用dask.dataframe、dask.distributed.Client和的组合dask_cuda.LocalCUDACluster。该过程将从更多的工人 CUDA 工人中受益匪浅，因此我想将物理 GPU（Nvidia RTX A600、V100、A100）拆分为多个虚拟/逻辑 GPU，以增加我的dask_cuda LocalCUDACluster. 我最初的想法是尝试将创建的logical_gpus 传递TensorFlow给LocalCUDACluster，但我似乎无法将它们传递给集群。

我在 docker 环境中工作，我想将这些分裂保留在 python 中。此工作流程理想地从本地工作站扩展到多节点 MPI 作业，但我不确定这是否可行，我愿意接受任何建议。

添加一个类似的例子。

python dask tensorflow2.x rapids

2021-04-16T22:02:41.547

0 投票

2 回答

562 浏览

python - “cupy.core.core.ndarray”对象没有“唯一”属性

factorize()我正在使用返回cupy数组和字符串元组的函数来转换分类特征。我将cupy数组分配给一个名为codes. 但是，我似乎无法获得codes使用的独特价值codes.unique()

它返回一条错误消息：

AttrubuteError：“cupy.core.core.ndarray”对象没有“唯一”属性

代码

感谢帮助和建议使其发挥作用

python cupy rapids

2021-04-18T07:11:47.927

0 投票

1 回答

112 浏览

python - RAPIDS：如何在使用另一个数据帧的 apply_rows 调用的 UDF 中使用一个数据帧？

对于数据框 A 中的每一行，我需要查询 DF B。我需要执行以下操作：按列 b1 (B.b1) 中的值过滤 B 行，这些值在列 A.a1 和 A.a2 定义的范围内并将组合值分配给 A.a3 列。

在 pandas 中会是这样的：

我尝试在 UDF 的函数参数中传递数据框，但出现错误：

下面是一个使用 Pandas 的工作 Python 示例。

python pandas rapids cudf

2021-04-19T03:04:01.433

0 投票

0 回答

327 浏览

python - CUML：无法在多 GPU Dask 集群上训练随机森林模型

基于官方的分布式模型训练示例（https://github.com/rapidsai/cuml/blob/branch-0.18/notebooks/random_forest_mnmg_demo.ipynb），我使用 Iris 数据集在多 GPU 桌面上训练随机森林模型集群（一个调度程序节点，三个工作节点），但无法训练模型。结果如下：

我的环境是由 conda 命令构建的：

我用于 RAPIDs RandomForestClassifier 的代码是：

使用 LocalCUDACluster 并没有改变结果。

你能指出我的错误并给我正确的代码吗？如果我想在训练有素的随机森林模型上评估决策树，我怎样才能得到那些训练有素的决策树？

谢谢你。

python random-forest dask-distributed rapids

2021-04-20T08:28:45.993

0 投票

1 回答

80 浏览

python - 用 Rapids cuGraph 绘图

我是 RAPIDS API 的后来者。我的问题是，cuGraph 包是否有助于绘制类似于我们使用 seaborn 和 matplotlib 绘制的图形，例如直方图和条形图？

我在互联网上到处搜索，但我无法接近这个。

任何建议都受到高度赞赏。

python rapids

2021-04-22T11:16:50.790

0 投票

1 回答

210 浏览

python - 无法将 dask_cudf 数据帧加载和计算到炽热的表中并看到一些与内存相关的错误。（cudaErrorMemoryAllocation 内存不足）

问题：

尝试使用 Dask CUDF 加载文件（CSV 和 Parquet）并看到一些与内存相关的错误。数据集可以轻松装入内存，并且可以使用 BlazingSQL 的 read_parquet 方法正确读取文件。但是 dask_cudf.read_parquet() 方法无法做到这一点。两种文件格式都出现相同的错误。

其他观察结果是，当从 cudf dataframe 创建 blazingSQL 表时，该表被创建但记录为零。

如果有人可以提供任何指示来解决此问题，那将很有帮助。

数据集信息：

行数 - 1.26 亿列数 - 209 文件格式 - parquet 分区数 - 8 文件大小 parquet - 400 MB 文件大小 csv - 62 GB

系统信息：

GPU - 6 (V100 TESLA) 内存 - 16GB GPU 核心 - 32 核心

客户端信息： 调度程序：tcp://127.0.0.1:36617 仪表板：http: //127.0.0.1 :8787/status 集群工作人员：4 核：4 内存：239.89 GiB

代码：

错误信息：

系统信息：

英伟达 smi 信息：

python memory dask dask-distributed rapids

2021-04-29T05:15:12.843

0 投票

1 回答

119 浏览

python - CUML 拟合函数抛出 cp.full TypeError

我一直在尝试在 Google Colab pro 上运行 RAPIDS，并成功安装了 cuml 和 cudf 包，但是我什至无法运行示例脚本。

TLDR；

每当我尝试在 Google Colab 上运行 cuml 的 fit 函数时，都会出现以下错误。当我使用演示示例进行安装和 cuml 时，我得到了这个。这发生在一系列 cuml 示例中（我首先尝试运行 UMAP）。

在 Google Colab Pro 上采取的步骤（重现错误）

这是一个示例，我使用 Rapids 中的此示例安装相关软件包（https://colab.research.google.com/drive/1rY7Ln6rEE1pOlfSHCYOVaqt8OvDO35J0#forceEdit=true&offline=true&sandboxMode=true）：

然后我尝试从 cuML ( https://docs.rapids.ai/api/cuml/stable/api.html#k-means-clustering )运行下面的示例

这将导致问题开始时出现错误。

python google-colaboratory rapids

2021-05-03T12:12:09.647

0 投票

1 回答

143 浏览

python - AttributeError：“cupy.core.core.ndarray”对象没有属性“iloc”

我正在尝试将数据拆分为训练和验证数据，为此我train_test_split从cuml.preprocessing.model_selection模块中使用。

但出现错误：

虽然我没有使用 iloc。

这是代码：

这train_dfIF是一个 cudf DataFrame 并且train_y是 cupy 数组。

python machine-learning rapids cudf

2021-05-03T14:03:20.663

0 投票

2 回答

73 浏览

python - TypeError：melt() 接受 1 个位置参数，但给出了 2 个

我正在尝试使用melt()函数，但它向我显示了传递 2 个参数的错误，这真的很奇怪，因为我id作为参数传递并且在我的 DataFrame 中我只有一id列，虽然这个错误仅在我使用从中拆分的数据时出现数据集按train_test_split功能，否则它工作正常。

错误信息：

这里X_train是一个cudf DataFrame.

python pandas dataframe rapids

2021-05-05T22:58:03.773

问题标签 [rapids]

TLDR；

在 Google Colab Pro 上采取的步骤（重现错误）

Reference