0

我们目前正在使用 deeppavlov 的框架来提取自定义命名实体。我们已经在标记数据集上训练了一个模型,但遇到了意外的内存使用问题。这些问题导致培训/评估过程终止。

由于某种原因,在训练和评估阶段,内存使用量猛增:

内存峰值示例

内存和 CPU 峰值示例

最大可用内存为 8GB。我们有可用的 GPU,并且在训练和预测/评估脚本中都有一行:os.environ['CUDA_VISIBLE_DEVICES'] = '0'。训练数据集只有 700 个句子。最初它在训练期间崩溃,但我将批量大小从 16 减少到 4 并且它设法经历了几个时期(最后仍然崩溃)。

使用 evaluate_model 函数或 python -m deeppavlov evaluate 命令更奇怪。从训练有素的 NER 模型加载词汇后,该过程被终止(我假设是由于内存限制)。又名最后一次信息登录在第 115 行的“deeppavlov.core.data.simple_vocab”。

您能否指出可能的高内存使用量的来源以及如何解决它?似乎即使我指定 os.environ['CUDA_VISIBLE_DEVICES'] = '0',pod 仍在使用 CPU。

4

0 回答 0