1

我正在处理用于内容分类的巨大文本数据集。我已经实现了 distilbert 模型和 distilberttokenizer.from_pretrained() 标记器。这个标记器需要非常长的时间来标记我的文本数据,大约 7 分钟,只有 14k 记录,这是因为它在我的 CPU 上运行。

有什么方法可以强制标记器在我的 GPU 上运行。

4

1 回答 1

4

标记化是字符串操作。它基本上是一个带有一堆 if-else 条件和字典查找的字符串的 for 循环。使用 GPU 无法加快速度。基本上,GPU 唯一能做的就是张量乘法和加法。只有可以使用张量运算制定的问题才能使用 GPU 加速。

Huggingface Transformers 中的默认标记器是在 Python 中实现的。在 Rust 中实现了一个更快的版本。您可以从独立包Huggingface Tokenziers或更新版本的 Transformers 中获取它,它们应该在DistilBertTokenizerFast.

于 2021-02-09T09:20:08.187 回答