1

我正在训练一个大型模型,试图在 Azure 笔记本中使用Azure 机器学习服务。

因此,我创建了一个Estimator在本地进行培训:

from azureml.train.estimator import Estimator

estimator = Estimator(source_directory='./source_dir',
                      compute_target='local',
                      entry_script='train.py')

(我train.py应该从一个大的词向量文件开始加载和训练)。

运行时

run = experiment.submit(config=estimator)

我明白了

培训异常:

==================================================== ===================

尝试拍摄 /data/home/username/notebooks/source_dir 的快照时,您的总快照大小超过了 300.0 MB 的限制。请参阅 http://aka.ms/aml-largefiles了解如何处理大文件。

==================================================== ===================

错误中提供的链接可能已损坏。我的内容./source_dir确实超过了 300 MB。
我该如何解决这个问题?

4

2 回答 2

2

您可以将训练文件放在外面source_dir,这样它们就不会在提交实验时被上传,然后将它们单独上传到数据存储(基本上使用与您的工作区关联的 Azure 存储)。然后,您需要做的就是参考train.py.

有关如何将数据上传到数据存储然后从训练文件访问数据的示例,请参阅训练模型教程。

于 2019-04-05T06:29:53.380 回答
0

在我阅读了 GitHub 问题Encounter |total Snapshot size 300MB while start logging和官方文档Manage and request quotas for Azure resources for Azure ML service 之后,我认为这是一个未知问题,需要一些时间等待 Azure 修复。

同时,我建议您可以尝试将当前工作迁移到其他服务Azure Databricks,上传您的数据集和代码,然后在托管在 HDInsight Spark Cluster 上的 Azure Databricks 笔记本中运行,无需担心内存或存储限制。你可以在 Azure Databricks 上参考这些示例以了解 Azure ML。

于 2019-04-05T06:31:40.753 回答