问题标签 [azureml-python-sdk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
37 浏览

python - Azureml 忽略 condas env.yml 中的环境变量

我正在基于 conda 环境文件在 azureml 中配置环境。然而,azureml 环境似乎忽略了 enviromnet 变量。

这将导致打印以下内容。

我的 env.yml 在底部包含以下部分

如果我将环境保存到这样的目录

它会生成一个名为“env”的文件夹,其中包含两个文件。

  • conda_dependencies.yml
  • azureml_environment.json

在 azureml_environment 我可以看到我的两个键存在。但是它们确实存在于 conda_dependancies.yml 中,这向我表明它们在 env.yml 文件中被正确定义。

如图所示,我还必须将“varialbes”键添加为有效的 yml 键,如果不是 azureml 则会引发错误。

我开始怀疑 azureml 不允许这种设置环境变量的方法,并且正确设置它们的唯一方法是使用以下方法:

由于这确实有效,但我更喜欢使用 .yml 文件。所以我想我的问题是:我应该能够使用 .yml 文件设置环境变量,还是我的假设正确,我必须使用 enviroment_variables 函数?

0 投票
2 回答
52 浏览

azure - AzureML 模型注册

我试图使用这样的Run类注册模型:

消息错误:Could not locate the provided model_path ... in the set of files uploaded to the run...

0 投票
1 回答
36 浏览

azure-machine-learning-service - AzureMLCompute 作业因“FailedLoginToImageRegistry”而失败

我一直在尝试通过 azure ml python sdk 发送火车作业:

但我收到了这样的ServiceError信息:

我也尝试使用 azure cli 没有成功,同样的错误信息

0 投票
0 回答
91 浏览

python - Azure ML 文件数据集 mount() 速度很慢并且下载数据两次

我使用 Azure ML python API 创建了一个 Fie 数据集。有问题的数据是位于 Azure Data Lake Gen 2 中分布在多个分区中的一堆 parquet 文件(约 10K parquet 文件,每个大小为 330 KB)。然后,我尝试将数据集挂载到 AML 计算实例中。在此挂载过程中,我观察到每个 parquet 文件已在计算实例的 /tmp 目录下下载了两次,并在控制台日志中打印了以下消息:

为作为数据集一​​部分的每个 parquet 文件打印此日志消息。

此外,安装数据集的过程非常缓慢:大约 10K parquet 文件,每个大小为 330 KB,需要 44 分钟。

Jupyter Lab 中的“%%time”命令显示大部分时间已用于 IO 进程?

注意:Data Lake Gen 2 和 Azure ML 计算实例都在同一个虚拟网络下。

以下是我的问题:

  1. 如何避免两次下载parquet文件?
  2. 如何使安装过程更快?

我已经完成了这个线程,但那里的讨论没有结束

我使用的 Python 代码如下:

0 投票
1 回答
79 浏览

azure - Azure ML 表格数据集:缺少 1 个必需的位置参数:'stream_column'

对于 AzureML ( azureml.data.TabularDataset) 的表格数据集的 Python API,已经引入了两种实验方法:

  1. download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
  2. mount(stream_column, mount_point=None)

参数stream_column已定义为要挂载或下载的流列。

的实际含义是stream_column什么?我在哪里看不到任何例子?

任何指针都会有所帮助。

堆栈跟踪:

0 投票
2 回答
51 浏览

python - AzureML:镶木地板文件为空时数据集配置文件失败

我使用 Azure ML python API 创建了一个表格数据集。有问题的数据是一组 parquet 文件(约 10K parquet 文件,每个大小为 330 KB),位于 Azure Data Lake Gen 2 中,分布在多个分区中。当我为数据集触发“生成配置文件”操作时,它会在处理空镶木地板文件时引发以下错误,然后配置文件生成停止。

空的 parquet 文件是指如果我使用 pandas ( pd.read_parquet) 读取单个 parquet 文件,它会导致一个空的 DF (df.empty == True)。

任何避免此错误的建议将不胜感激。

0 投票
2 回答
64 浏览

azure - AzureML:当镶木地板文件为空时,TabularDataset.to_pandas_dataframe() 挂起

我使用 Azure ML python API 创建了一个表格数据集。有问题的数据是一组 parquet 文件(约 10K parquet 文件,每个大小为 330 KB),位于 Azure Data Lake Gen 2 中,分布在多个分区中。当我尝试使用 API 加载数据集时TabularDataset.to_pandas_dataframe(),如果数据集中包含空的镶木地板文件,它将永远继续(挂起)。如果表格数据集不包含那些空的 parquet 文件,则TabularDataset.to_pandas_dataframe()在几分钟内完成。

空镶木地板文件是指如果我使用 pandas (pd.read_parquet()) 读取单个镶木地板文件,则会导致空 DF (df.empty == True)。

我在处理提到的另一个问题时发现了根本原因[here][1]

TabularDataset.to_pandas_dataframe()我的问题是,即使有空的镶木地板文件,如何才能工作?

0 投票
1 回答
6 浏览

azureml - azureml.contrib.dataset 与 azureml.data

看起来 AzureML Python SDK 有两个通过 API 公开的数据集包:

  1. azureml.contrib.dataset
  2. azureml.data

文档没有明确提到区别或者我们什么时候应该使用哪一个?但是,它肯定会造成混乱。例如,有两个通过 API 公开的表格数据集类。它们针对不同的功能有不同的 API:

  1. azureml.data.TabularDataset
  2. azureml.contrib.dataset.TabularDataset

关于何时应该使用哪个包的任何建议都会有所帮助。

0 投票
1 回答
32 浏览

azure-storage - 为什么 AzureML SDK 会破坏默认数据存储?

我已尝试按照 此处的文档说明进行操作(请参阅下面的代码),并且管道似乎运行正常。但是,当我在 ML Studio 上查看它时,它说管道已失败,因为容器不存在。

更糟糕的是,如果我登录到 Microsoft Azure 存储资源管理器,默认数据存储似乎以某种方式损坏并显示以下消息:The specified container does not exist.. 在运行此之前,我能够将文件和文件夹添加到容器中。

我现在已经在两个单独的 ML 实例上进行了尝试。

有谁知道为什么?

我需要保留一些数据,所以我使用了一个OutputFileDatasetConfig对象,并且我在 Azure ML 计算实例上运行下面的代码。

0 投票
0 回答
18 浏览

python - 什么是有效的 Azure ML Workspace 连接参数选项?

我想用 Azure Devops 中的两个 python 包构建一个 Azure ML 环境。为此,我需要一个与 Azure Devops 的工作区连接。一个包发布到工件提要,我可以使用 python SDK 使用个人访问令牌访问它:

但是,另一方面,我需要从 Azure Devops 中的 git 存储库获取包。Python SDK和底层REST API的文档没有提供参数的选项,只是它们需要是字符串(参见链接)。

我的问题:以下论点有哪些选择:

  • 身份验证类型
  • 类别
  • 值格式

我需要为目标参数设置什么,以便我可以使用可能不同的身份验证连接到 Azure DevOps 存储库?