“rapids”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1039 浏览

python - 错误：找不到满足 dask-cudf 要求的版本（来自版本：无）

描述错误

当我尝试时，import dask_cudf我收到以下错误：

我用 pip 安装了 dask 和 RAPIDS

当我搜索： pip install dask_cudf
原始站点不再存在：https ://pypi.org/project/dask-cudf/
谷歌存储的网站历史：https ://webcache.googleusercontent.com/search?q=cache:8in7y2jQFQIJ:https://pypi.org/project/dask-cudf/+&cd=1&hl=en&ct=clnk&gl=uk

我正在尝试在 Google Colab 窗口中使用以下代码安装它 %pip install dask-cudf

我收到以下错误

在 CUDF 的 github 页面上已存档。我现在如何将它安装到 google colab？ https://github.com/rapidsai/dask-cudf

我尝试过的解决方案

[归档] Dask 支持分布式 GDF 对象 --> 移至 cudf -> 所以我从 https://pypi.org/project/cudf/安装它 %pip install cudf
在新的 Github 页面上，我只能看到无法与 Google colab 一起使用的 conda 安装 - https://github.com/rapidsai/cudf
Rapids install :pip install rapidsai我认为这是一个旧版本，现在可能不支持

2020-10-28T16:13:17.583

0 投票

1 回答

143 浏览

dask-distributed - dask_cudf - 不尊重 rmm 配额，粉碎

我是机器学习和使用 GPU 的新手——因此我对 RAPID 和 dask 感到很兴奋。

我在 AWS EC2 p3.8xlarge 上运行。在它上面，我正在使用 RAPIDs 容器运行 docker。我使用的是 0.16 版。有一个60GB的EBS。

我有一个包含大约 8000 万条记录的数据集。作为 csv，它大约是 27GB，而作为 parquet（功能少一点），它是 3.4GB（AWS S3 上的两种情况）。

尝试dask_cudf使用 aLocalCUDACluster时，我总是遇到崩溃工人的问题。创建核心转储并继续执行，创建新的工作人员并最终占用我机器上的所有存储空间。

请参阅下面的一些示例执行，显示内存增加，不考虑 rmm_pool_size 并最终崩溃。我尝试了许多 rmm_pool_size 的值，无论是在总 GPU 内存之上还是之下（据我了解，它应该能够溢出到机器内存）。

我正在使用以下初始代码：

我打印内存使用情况：

导致

数据集总内存：50.736539436504245GB

然后，执行我的代码（无论是尝试做一些 EDA、运行 KNN 还是其他几乎所有东西，我都会遇到这种行为/错误。

我阅读了文档，阅读了许多博客（主要来自 RAPIDS），我浏览了笔记本，但我仍然无法让它工作。难道我做错了什么？这不适用于我的设置吗？

任何帮助，将不胜感激...

dask-distributed rapids

2020-10-30T20:37:45.580

0 投票

1 回答

141 浏览

gpu - 为什么 dask_cudf DataFrame 的 KNearestNeighbors 的 cuml predict() 方法需要这么长时间？

我有一个大型数据集（大约 8000 万行），我正在使用带有 dask_cudf 数据帧的 cuml 训练一个 KNearestNeighbors 回归模型。

我正在使用 4 个 GPU，每个 rmm_pool_size 为 15GB：

我正在从存储在 S3 存储桶中的镶木地板文件中读取数据：

当我拟合 KNN 模型时，它运行良好，我可以看到这段时间 GPU 利用率很高。这是我用来拟合模型的代码：

但是，当我尝试输出测试集的预测时，与 fit 方法相比，这需要大量时间。

我等了将近 24 小时才终于有一次看到 predict 方法的结果。也很明显，predict 方法运行期间的 GPU 利用率要低得多，下降到大约 30-40%（在训练期间约为 100%），见下面的截图：

我可以使用一些帮助来理解为什么 predict 方法需要这么长时间，以及我在代码中是否做错了什么。作为参考，我正在关注本文档站点上给出的 KNN Regressor 示例：https ://docs.rapids.ai/api/cuml/stable/api.html#id23

任何帮助将不胜感激，谢谢！

gpu dask dask-distributed rapids cudf

2020-11-11T11:36:04.203

0 投票

1 回答

223 浏览

python - 将 RAPIDS CUML 随机森林模型部署到无法安装 RAPIDS/CUML 的 Windows 虚拟机

我需要在无法安装 rapids/cuml 的无 GPU 的 Windows 虚拟机上对 cuml.dask.ensemble.RandomForestClassifier 执行推理。

我曾想过使用treelite，所以我必须将模型导入treelite并生成一个共享库（windows的.dll文件）。之后，我将使用 treelite_runtime.Predictor 导入共享库并在目标机器中执行推理。

问题是我不知道如何将 RandomForestClassifier 模型导入 treelite 以创建 treelite 模型。

我曾尝试使用“convert_to_treelite_model”，但获得的对象不是 treelite 模型，我不知道如何使用它。

见附件代码（在Linux下执行，所以我尝试使用gcc工具链并生成一个'.so'文件......

当我尝试调用 'export_lib' 函数时，出现异常“'cuml.fil.fil.TreeliteModel' 对象没有属性 'export_lib'”...

注意：我正在尝试使用以下库版本在具有 2 个 NVIDIA RTX2080ti GPU 的 Ubuntu 机器上运行代码：

python machine-learning random-forest machine-learning-model rapids

2020-11-16T21:02:48.037

0 投票

1 回答

3180 浏览

python - worker 0 上的内存分配错误：std::bad_alloc: CUDA 错误

描述

我只是想为模型提供训练和测试集，但出现以下错误
第一个数据包 -train_data = xgboost.DMatrix(data=X_train, label=y_train) 直到我只运行这个并进行培训和任何事情，只有这个不会给出错误消息
第二个数据包 -test_data = xgboost.DMatrix(data=X_test, label=y_test) 将单元格向下连接，它们不会一起执行

环境

遵循指南 - https://github.com/rapidsai-community/notebooks-contrib/blob/branch-0.14/intermediate_notebooks/E2E/synthetic_3D/rapids_ml_workflow_demo.ipynb
conda create -n rapids-0.16 -c rapidsai -c nvidia -c conda-forge -c defaults rapids=0.16 python=3.7 cudatoolkit=10.2
AWS EC2：深度学习 AMI (Ubuntu 18.04) 版本 36.0 - ami-063585f0e06d22308：MXNet-1.7.0、TensorFlow-2.3.1、2.1.0 和 1.15.3、PyTorch-1.4.0 和 1.7.0、Neuron 和其他。NVIDIA CUDA、cuDNN、NCCL、英特尔 MKL-DNN、Docker、NVIDIA-Docker 和 EFA 支持。如需完全托管的体验，请查看：https ://aws.amazon.com/sagemaker
AWS EC2 实例 - g4dn.4xlarge - 16GB VRAM，64 GB RAM

边注

错误 GB VRAM 大小不是 30GB 或 15GB
- 1 539 047 424 = 1.5 GB，
- 3 091 258 960 = 3 GB，
- 3 015 442 432 = 3GB，
- 3 091 258 960 = 3 GB。
- GPU 有 16 GB VRAM，所以我认为这不能回答问题。

错误

代码 2如果我清理并重新启动在 1 个单元中一起执行它们的笔记本。

错误 2

python python-3.x cuda rapids cudf

2020-11-17T16:12:19.747

0 投票

1 回答

354 浏览

tensorflow - 可以在同一个 conda 环境中安装 Rapids 0.16 和 TF 2.2 吗？

我已经尝试过并且总是遇到冲突。

tensorflow conda rapids

2020-11-27T10:53:59.303

0 投票

1 回答

810 浏览

python - 如何将 NetworkX 图转换为 cuGraph？

所以我使用 NetworkX 加载一个点文件图。我想在 cuGraph 上在 GPU 上执行操作。如何将 NetworkX 图转换为 cuGraph？

python graph cuda gpu rapids

2020-12-22T00:59:19.387

0 投票

0 回答

391 浏览

memory - 合并 cuda 数据帧和距离计算时 RAPIDS 内存不足

我正在尝试 RAPIDS cudf 和 cuspatial，想知道交叉连接两个产生 270 亿行的数据帧的更好方法是什么？

我有两个数据集——一个来自纽约市出租车行程数据（1470 万行），其中包含接送地点的经度/纬度。另一个数据集包含 1.8k 个地铁站的经度/纬度。对于每次旅行，我想与所有车站位置交叉连接，然后计算所有排列的 Haversine 距离。

我不认为 cudf 允许交叉连接，所以我key在两个数据集中创建了一个新列。

我在 Nvidia V100 和 4 个虚拟 CPU 上运行代码，但仍然遇到内存不足的问题。我猜我需要分批处理合并，但不知道如何处理它！任何建议表示赞赏！

memory gpu batch-processing rapids cudf

2020-12-27T09:41:22.450

0 投票

1 回答

54 浏览

python-3.x - 在 RAPIDS 上的多边形查询中运行点的函数中键入错误

我想为 1400 万纽约市出租车行程创建一个多边形查询点，并找出行程位于 263 个出租车区中的哪个。

我想要 RAPIDS cuspatial 上的代码。我阅读了一些论坛和帖子，并遇到了顶点多边形限制，即用户每次运行只能对 32 个多边形执行查询。所以我做了以下操作来分批分割我的多边形。

这是我的出租车区多边形文件

总共有 263 个多边形/出租车区 - 我想在每次迭代中分 24 个批次和 11 个多边形进行查询。

当我运行该函数时，我收到了一个类型错误。我想知道什么可能导致这个问题？

python-3.x function point-in-polygon rapids

2020-12-28T05:50:04.587

0 投票

1 回答

43 浏览

c++ - 如何在 RapidsAI Docker 容器中编译 C++

在带有示例的 RapidsAI docker 映像中，如何在修改后重新编译 C++ 代码？我尝试从 Jupyter 中的终端会话运行构建脚本，但它找不到 CMake。

c++docker rapids

2020-12-29T16:59:36.867

问题标签 [rapids]

Reference