apache-spark - 如何在 databricks 上使用带有 spark nlp 的拥抱面变压器使用 NER 模型进行微调

Question

我需要训练（微调）NER 标记分类器来识别我们的自定义标记。我发现的最简单的方法是： Token Classification with W-NUT Emerging Entities

但是现在我遇到了一个问题 - 计划是遵循： HuggingFace in Spark NLP - BERT Sentence.ipynb，但是当我尝试时：

model.save_pretrained(<path on DBFS>)

我收到文件写入错误。据我了解，这是因为 transformers/keras 无法在 DBFS 等分布式文件系统上运行

有什么解决方法吗？

我无法将训练从数据块中移开，因为我正在使用数据库中的数据（实体）来创建训练文件

PS。也许我可以只使用 spark nlp 做同样的事情？How-prefarably 使用相同的“仅标签”格式？

score 1 · Accepted Answer

您应该先将模型保存到本地文件系统，然后将其复制到 DBFS：

from distutils.dir_util import copy_tree

local_path = "./tmp/model"
dbfs_path = "/dbfs/tmp/model"

model.save_pretrained(local_path)
copy_tree(local_path, dbfs_path)

apache-spark - 如何在 databricks 上使用带有 spark nlp 的拥抱面变压器使用 NER 模型进行微调

1 回答 1

Related

Reference