问题标签 [cudf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

95 问题

0 投票

1 回答

1150 浏览

series - 如何使用 cudf.Series.applymap()？

有人可以提供一些如何applymap在 cuDF 系列上使用该方法的示例吗？

以下是从文档中复制的，这里是文档的链接。

2019-08-13T16:15:31.567

0 投票

1 回答

66 浏览

pandas - 用什么代替 pandas.Series.filter？

熊猫-> cuDF

将一些为 pandas 编写的 python 转换为在 Rapids 上运行

熊猫

有人知道用什么代替pandas.Series.filter相同的结果cuDF吗？

pandas rapids cudf

2019-08-21T03:03:50.547

0 投票

1 回答

75 浏览

rapids - 将 cuDF 数据框列转换为“真”/“假”值的 1 或 0

我正在使用 RAPIDS（0.9 版本）docker 容器。如何使用 RAPIDS cuDF 执行以下操作？

df['new_column'] = df['column_name'] > condition df[['new_column']] *= 1

rapids cudf

2019-08-22T14:12:16.203

0 投票

1 回答

295 浏览

gpu - 在没有 GPU 的情况下运行 RAPIDS 进行开发？

有没有办法在没有 GPU 的情况下运行 RAPIDS？我通常在没有 GPU 的小型本地机器上开发，然后将我的代码推送到功能强大的远程服务器以供实际使用。TensorFlow 之类的东西允许在 CPU 和 GPU 之间切换，具体取决于它们是否可用。可以用 RAPIDS 做同样的事情吗？即使速度很慢，能够在没有 GPU 的机器上进行测试也会非常有帮助。

gpu rapids cudf

2019-09-05T22:27:34.317

0 投票

3 回答

11072 浏览

pip - 如何使用 pip 安装 cudf？

我想在我的 GPU 上加速 pandas，所以我决定使用cudf库。请建议其他图书馆（如果有的话）。

我尝试cudf使用 pip by安装pip3.6 install cudf-cuda92。pip 版本是 19.2.3（最新）。

当我pip3.6 install cudf-cuda92在我的 cmd 上运行时，它说：

pip python-3.6 cudf

2019-09-12T10:10:03.633

0 投票

1 回答

1655 浏览

python - 处理大量 parquet 文件时出现 CUDF 错误

我在一个目录中有 2000 个镶木地板文件。每个 parquet 文件大小约为 20MB。使用的压缩是 SNAPPY。每个 parquet 文件都有如下所示的行：

每个列条目都是一个字符串。我正在使用具有以下配置的 p3.8xlarge EC2 实例：

内存：244GB
vCPU : 32
GPU RAM：64GB（每个GPU核心有16GB RAM）
GPU：4特斯拉V100

我正在尝试以下代码：

这在处理前 180 个文件后崩溃，并出现以下运行时错误：

在任何给定时间，只有 10% 的 GPU 和 CPU RAM 被使用。任何想法如何调试这个或相同的解决方法是什么？

python nvidia dask parquet cudf

2019-09-26T09:50:41.547

0 投票

1 回答

405 浏览

dask - 如何确保“分区”的数量在 dask 和 dask-cudf 的工作人员之间平均分配？

我正在尝试对使用大量工作人员的工作人员的大文件进行基本的ETLdask-cudf工作流程。

问题：

最初，scheduler计划在工作人员之间读取的数量相等，partitions但在预处理期间，它倾向于在工作人员之间分配/打乱它们。

一个工作人员获得的最小分区数是4，它获得的最大分区数是19（total partitions= apprx. 300，num_workers= 22）这种行为会导致下游问题，因为我希望在工作人员之间平均分配分区。

有没有办法防止这种行为？

我认为下面会对此有所帮助，但事实并非如此。

正在完成的工作流程：

读
填满
向下转换/其他逻辑

dask cudf

2019-10-04T18:33:02.070

0 投票

1 回答

618 浏览

python - 如何在google平台-ai平台-笔记本实例中安装库

我目前是一名数据科学本科生，尝试使用google can平台-人工智能平台-笔记本实例做数据科学项目。下图显示了我在说什么。

我运行实例并使用它来操作数据没有问题。但是，由于我想使用 cudf 库来加快数据处理速度，所以我需要安装该库。通过从互联网上搜索，我尝试过：首先，我打开了终端：

然后我尝试了以下命令并得到了错误：

该命令来自该网站 2.然后我尝试使用 anaconda 方式安装它，使用来自同一网站的方法我在终端中键入以下命令并得到“UnsatisfiableError”。

从上面可以看出，10.0版本和9.42版本我都试过了，但是都不行。3.然后我也尝试使用这个网站的方法。我在终端上输入了以下命令conda install -c nvidia -c rapidsai -c numba -c conda-forge -c defaults cudf=0.8 python=3.6 cudatoolkit=9.2，结果很长，所以我只显示最后一部分：

可以看到，这次安装成功了。但是当我打开一本新笔记本并导入“cudf”库时，会出现以下错误：

它说没有这样的库，但我只是安装了该库。

我非常感谢任何可以为我解决这个问题的人，因为我已经为此苦苦挣扎了 7 个小时。

python google-cloud-platform anaconda jupyter-lab cudf

2019-10-10T08:40:01.700

0 投票

1 回答

1210 浏览

dask - 如何使用 dask/dask-cudf 将单个大型 parquet 文件读入多个分区？

我正在尝试使用/读取单个大parquet文件（大小> gpu_size），但它当前正在将其读入单个分区，我猜这是从文档字符串推断的预期行为：dask_cudfdask

有没有一种解决方法我可以将它读入多个分区？

dask cudf

2019-10-17T16:35:26.830

0 投票

1 回答

206 浏览

pandas - cudf 是否支持 get_dummies？

cudf 是否支持 pandas get_dummies。在熊猫中，我可以执行以下操作；

pandas cudf

2019-11-12T16:35:09.973

1 2 3 4 5 6 7 8 9 10

问题标签 [cudf]

熊猫-> cuDF

熊猫

问题：

Reference