问题标签 [rapids]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pandas - cuDF:Pandas Groupby + Shift 的替代方案?
我有一个想要使用 Groupby + Shift 的 DF。我可以在 pandas 中执行此操作,但我无法在 cuDF 中执行此操作,因为它尚未实现:请参阅问题Issue #7183。功能请求是很久以前的,所以他们似乎不会在不久的将来实现这个。有没有替代方法?
python - 我可以将物理 GPU 拆分为多个逻辑/虚拟 GPU 并将它们传递给 dask_cuda.LocalCUDACluster 吗?
我有一个从 GPU 加速中受益匪浅的工作流程,但每个任务的内存要求相对较低(2-4 GB)。我正在使用dask.dataframe
、dask.distributed.Client
和的组合dask_cuda.LocalCUDACluster
。该过程将从更多的工人 CUDA 工人中受益匪浅,因此我想将物理 GPU(Nvidia RTX A600、V100、A100)拆分为多个虚拟/逻辑 GPU,以增加我的dask_cuda LocalCUDACluster
. 我最初的想法是尝试将创建的logical_gpus 传递TensorFlow
给LocalCUDACluster
,但我似乎无法将它们传递给集群。
我在 docker 环境中工作,我想将这些分裂保留在 python 中。此工作流程理想地从本地工作站扩展到多节点 MPI 作业,但我不确定这是否可行,我愿意接受任何建议。
添加一个类似的例子。
python - “cupy.core.core.ndarray”对象没有“唯一”属性
factorize()
我正在使用返回cupy
数组和字符串元组的函数来转换分类特征。我将cupy
数组分配给一个名为codes
. 但是,我似乎无法获得codes
使用的独特价值codes.unique()
它返回一条错误消息:
AttrubuteError:“cupy.core.core.ndarray”对象没有“唯一”属性
感谢帮助和建议使其发挥作用
python - RAPIDS:如何在使用另一个数据帧的 apply_rows 调用的 UDF 中使用一个数据帧?
对于数据框 A 中的每一行,我需要查询 DF B。我需要执行以下操作:按列 b1 (B.b1) 中的值过滤 B 行,这些值在列 A.a1 和 A.a2 定义的范围内并将组合值分配给 A.a3 列。
在 pandas 中会是这样的:
我尝试在 UDF 的函数参数中传递数据框,但出现错误:
下面是一个使用 Pandas 的工作 Python 示例。
python - CUML:无法在多 GPU Dask 集群上训练随机森林模型
基于官方的分布式模型训练示例(https://github.com/rapidsai/cuml/blob/branch-0.18/notebooks/random_forest_mnmg_demo.ipynb),我使用 Iris 数据集在多 GPU 桌面上训练随机森林模型集群(一个调度程序节点,三个工作节点),但无法训练模型。结果如下:
我的环境是由 conda 命令构建的:
我用于 RAPIDs RandomForestClassifier 的代码是:
使用 LocalCUDACluster 并没有改变结果。
你能指出我的错误并给我正确的代码吗?如果我想在训练有素的随机森林模型上评估决策树,我怎样才能得到那些训练有素的决策树?
谢谢你。
python - 用 Rapids cuGraph 绘图
我是 RAPIDS API 的后来者。我的问题是,cuGraph 包是否有助于绘制类似于我们使用 seaborn 和 matplotlib 绘制的图形,例如直方图和条形图?
我在互联网上到处搜索,但我无法接近这个。
任何建议都受到高度赞赏。
python - 无法将 dask_cudf 数据帧加载和计算到炽热的表中并看到一些与内存相关的错误。(cudaErrorMemoryAllocation 内存不足)
问题 :
尝试使用 Dask CUDF 加载文件(CSV 和 Parquet)并看到一些与内存相关的错误。数据集可以轻松装入内存,并且可以使用 BlazingSQL 的 read_parquet 方法正确读取文件。但是 dask_cudf.read_parquet() 方法无法做到这一点。两种文件格式都出现相同的错误。
其他观察结果是,当从 cudf dataframe 创建 blazingSQL 表时,该表被创建但记录为零。
如果有人可以提供任何指示来解决此问题,那将很有帮助。
数据集信息:
行数 - 1.26 亿列数 - 209 文件格式 - parquet 分区数 - 8 文件大小 parquet - 400 MB 文件大小 csv - 62 GB
系统信息 :
GPU - 6 (V100 TESLA) 内存 - 16GB GPU 核心 - 32 核心
客户端信息: 调度程序:tcp://127.0.0.1:36617 仪表板:http: //127.0.0.1 :8787/status 集群工作人员:4 核:4 内存:239.89 GiB
代码 :
错误信息:
系统信息 :
英伟达 smi 信息:
python - CUML 拟合函数抛出 cp.full TypeError
我一直在尝试在 Google Colab pro 上运行 RAPIDS,并成功安装了 cuml 和 cudf 包,但是我什至无法运行示例脚本。
TLDR;
每当我尝试在 Google Colab 上运行 cuml 的 fit 函数时,都会出现以下错误。当我使用演示示例进行安装和 cuml 时,我得到了这个。这发生在一系列 cuml 示例中(我首先尝试运行 UMAP)。
在 Google Colab Pro 上采取的步骤(重现错误)
这是一个示例,我使用 Rapids 中的此示例安装相关软件包(https://colab.research.google.com/drive/1rY7Ln6rEE1pOlfSHCYOVaqt8OvDO35J0#forceEdit=true&offline=true&sandboxMode=true):
然后我尝试从 cuML ( https://docs.rapids.ai/api/cuml/stable/api.html#k-means-clustering )运行下面的示例
这将导致问题开始时出现错误。
python - AttributeError:“cupy.core.core.ndarray”对象没有属性“iloc”
我正在尝试将数据拆分为训练和验证数据,为此我train_test_split
从cuml.preprocessing.model_selection
模块中使用。
但出现错误:
虽然我没有使用 iloc。
这是代码:
这train_dfIF
是一个 cudf DataFrame 并且train_y
是 cupy 数组。
python - TypeError:melt() 接受 1 个位置参数,但给出了 2 个
我正在尝试使用melt()
函数,但它向我显示了传递 2 个参数的错误,这真的很奇怪,因为我id
作为参数传递并且在我的 DataFrame 中我只有一id
列,虽然这个错误仅在我使用从中拆分的数据时出现数据集按train_test_split
功能,否则它工作正常。
错误信息:
这里X_train是一个cudf DataFrame
.