问题标签 [rapids]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
95 浏览

pandas - cuDF:Pandas Groupby + Shift 的替代方案?

我有一个想要使用 Groupby + Shift 的 DF。我可以在 pandas 中执行此操作,但我无法在 cuDF 中执行此操作,因为它尚未实现:请参阅问题Issue #7183。功能请求是很久以前的,所以他们似乎不会在不久的将来实现这个。有没有替代方法?

0 投票
0 回答
150 浏览

python - 我可以将物理 GPU 拆分为多个逻辑/虚拟 GPU 并将它们传递给 dask_cuda.LocalCUDACluster 吗?

我有一个从 GPU 加速中受益匪浅的工作流程,但每个任务的内存要求相对较低(2-4 GB)。我正在使用dask.dataframedask.distributed.Client和的组合dask_cuda.LocalCUDACluster。该过程将从更多的工人 CUDA 工人中受益匪浅,因此我想将物理 GPU(Nvidia RTX A600、V100、A100)拆分为多个虚拟/逻辑 GPU,以增加我的dask_cuda LocalCUDACluster. 我最初的想法是尝试将创建的logical_gpus 传递TensorFlowLocalCUDACluster,但我似乎无法将它们传递给集群。

我在 docker 环境中工作,我想将这些分裂保留在 python 中。此工作流程理想地从本地工作站扩展到多节点 MPI 作业,但我不确定这是否可行,我愿意接受任何建议。

添加一个类似的例子。

0 投票
2 回答
562 浏览

python - “cupy.core.core.ndarray”对象没有“唯一”属性

factorize()我正在使用返回cupy数组和字符串元组的函数来转换分类特征。我将cupy数组分配给一个名为codes. 但是,我似乎无法获得codes使用的独特价值codes.unique()

它返回一条错误消息:

AttrubuteError:“cupy.core.core.ndarray”对象没有“唯一”属性

代码

感谢帮助和建议使其发挥作用

0 投票
1 回答
112 浏览

python - RAPIDS:如何在使用另一个数据帧的 apply_rows 调用的 UDF 中使用一个数据帧?

对于数据框 A 中的每一行,我需要查询 DF B。我需要执行以下操作:按列 b1 (B.b1) 中的值过滤 B 行,这些值在列 A.a1 和 A.a2 定义的范围内并将组合值分配给 A.a3 列。

在 pandas 中会是这样的:

我尝试在 UDF 的函数参数中传递数据框,但出现错误:

下面是一个使用 Pandas 的工作 Python 示例。

0 投票
0 回答
327 浏览

python - CUML:无法在多 GPU Dask 集群上训练随机森林模型

基于官方的分布式模型训练示例(https://github.com/rapidsai/cuml/blob/branch-0.18/notebooks/random_forest_mnmg_demo.ipynb),我使用 Iris 数据集在多 GPU 桌面上训练随机森林模型集群(一个调度程序节点,三个工作节点),但无法训练模型。结果如下:

我的环境是由 conda 命令构建的:

我用于 RAPIDs RandomForestClassifier 的代码是:

使用 LocalCUDACluster 并没有改变结果。

你能指出我的错误并给我正确的代码吗?如果我想在训练有素的随机森林模型上评估决策树,我怎样才能得到那些训练有素的决策树?

谢谢你。

0 投票
1 回答
80 浏览

python - 用 Rapids cuGraph 绘图

我是 RAPIDS API 的后来者。我的问题是,cuGraph 包是否有助于绘制类似于我们使用 seaborn 和 matplotlib 绘制的图形,例如直方图和条形图?

我在互联网上到处搜索,但我无法接近这个。

任何建议都受到高度赞赏。

0 投票
1 回答
210 浏览

python - 无法将 dask_cudf 数据帧加载和计算到炽热的表中并看到一些与内存相关的错误。(cudaErrorMemoryAllocation 内存不足)

问题 :

尝试使用 Dask CUDF 加载文件(CSV 和 Parquet)并看到一些与内存相关的错误。数据集可以轻松装入内存,并且可以使用 BlazingSQL 的 read_parquet 方法正确读取文件。但是 dask_cudf.read_parquet() 方法无法做到这一点。两种文件格式都出现相同的错误。

其他观察结果是,当从 cudf dataframe 创建 blazingSQL 表时,该表被创建但记录为零。

如果有人可以提供任何指示来解决此问题,那将很有帮助。

数据集信息:

行数 - 1.26 亿列数 - 209 文件格式 - parquet 分区数 - 8 文件大小 parquet - 400 MB 文件大小 csv - 62 GB

系统信息 :

GPU - 6 (V100 TESLA) 内存 - 16GB GPU 核心 - 32 核心

客户端信息: 调度程序:tcp://127.0.0.1:36617 仪表板:http: //127.0.0.1 :8787/status 集群工作人员:4 核:4 内存:239.89 GiB

代码 :

错误信息:

系统信息 :

英伟达 smi 信息:

0 投票
1 回答
119 浏览

python - CUML 拟合函数抛出 cp.full TypeError

我一直在尝试在 Google Colab pro 上运行 RAPIDS,并成功安装了 cuml 和 cudf 包,但是我什至无法运行示例脚本。

TLDR;

每当我尝试在 Google Colab 上运行 cuml 的 fit 函数时,都会出现以下错误。当我使用演示示例进行安装和 cuml 时,我得到了这个。这发生在一系列 cuml 示例中(我首先尝试运行 UMAP)。

在 Google Colab Pro 上采取的步骤(重现错误)

这是一个示例,我使用 Rapids 中的此示例安装相关软件包(https://colab.research.google.com/drive/1rY7Ln6rEE1pOlfSHCYOVaqt8OvDO35J0#forceEdit=true&offline=true&sandboxMode=true):

然后我尝试从 cuML ( https://docs.rapids.ai/api/cuml/stable/api.html#k-means-clustering )运行下面的示例

这将导致问题开始时出现错误。

0 投票
1 回答
143 浏览

python - AttributeError:“cupy.core.core.ndarray”对象没有属性“iloc”

我正在尝试将数据拆分为训练和验证数据,为此我train_test_splitcuml.preprocessing.model_selection模块中使用。

但出现错误:

虽然我没有使用 iloc。

这是代码:

train_dfIF是一个 cudf DataFrame 并且train_y是 cupy 数组。

0 投票
2 回答
73 浏览

python - TypeError:melt() 接受 1 个位置参数,但给出了 2 个

我正在尝试使用melt()函数,但它向我显示了传递 2 个参数的错误,这真的很奇怪,因为我id作为参数传递并且在我的 DataFrame 中我只有一id列,虽然这个错误仅在我使用从中拆分的数据时出现数据集按train_test_split功能,否则它工作正常。

错误信息:

这里X_train是一个cudf DataFrame.