1

我需要训练(微调)NER 标记分类器来识别我们的自定义标记。我发现的最简单的方法是: Token Classification with W-NUT Emerging Entities

但是现在我遇到了一个问题 - 计划是遵循: HuggingFace in Spark NLP - BERT Sentence.ipynb,但是当我尝试时:

model.save_pretrained(<path on DBFS>)

我收到文件写入错误。据我了解,这是因为 transformers/keras 无法在 DBFS 等分布式文件系统上运行

有什么解决方法吗?

我无法将训练从数据块中移开,因为我正在使用数据库中的数据(实体)来创建训练文件

PS。也许我可以只使用 spark nlp 做同样的事情?How-prefarably 使用相同的“仅标签”格式?

4

1 回答 1

1

您应该先将模型保存到本地文件系统,然后将其复制到 DBFS:

from distutils.dir_util import copy_tree

local_path = "./tmp/model"
dbfs_path = "/dbfs/tmp/model"

model.save_pretrained(local_path)
copy_tree(local_path, dbfs_path)
于 2021-12-17T08:03:19.010 回答