问题标签 [azureml-python-sdk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Azureml 忽略 condas env.yml 中的环境变量
我正在基于 conda 环境文件在 azureml 中配置环境。然而,azureml 环境似乎忽略了 enviromnet 变量。
这将导致打印以下内容。
我的 env.yml 在底部包含以下部分
如果我将环境保存到这样的目录
它会生成一个名为“env”的文件夹,其中包含两个文件。
- conda_dependencies.yml
- azureml_environment.json
在 azureml_environment 我可以看到我的两个键不存在。但是它们确实存在于 conda_dependancies.yml 中,这向我表明它们在 env.yml 文件中被正确定义。
如图所示,我还必须将“varialbes”键添加为有效的 yml 键,如果不是 azureml 则会引发错误。
我开始怀疑 azureml 不允许这种设置环境变量的方法,并且正确设置它们的唯一方法是使用以下方法:
由于这确实有效,但我更喜欢使用 .yml 文件。所以我想我的问题是:我应该能够使用 .yml 文件设置环境变量,还是我的假设正确,我必须使用 enviroment_variables 函数?
azure - AzureML 模型注册
我试图使用这样的Run
类注册模型:
消息错误:Could not locate the provided model_path ... in the set of files uploaded to the run...
azure-machine-learning-service - AzureMLCompute 作业因“FailedLoginToImageRegistry”而失败
我一直在尝试通过 azure ml python sdk 发送火车作业:
但我收到了这样的ServiceError
信息:
我也尝试使用 azure cli 没有成功,同样的错误信息
python - Azure ML 文件数据集 mount() 速度很慢并且下载数据两次
我使用 Azure ML python API 创建了一个 Fie 数据集。有问题的数据是位于 Azure Data Lake Gen 2 中分布在多个分区中的一堆 parquet 文件(约 10K parquet 文件,每个大小为 330 KB)。然后,我尝试将数据集挂载到 AML 计算实例中。在此挂载过程中,我观察到每个 parquet 文件已在计算实例的 /tmp 目录下下载了两次,并在控制台日志中打印了以下消息:
为作为数据集一部分的每个 parquet 文件打印此日志消息。
此外,安装数据集的过程非常缓慢:大约 10K parquet 文件,每个大小为 330 KB,需要 44 分钟。
Jupyter Lab 中的“%%time”命令显示大部分时间已用于 IO 进程?
注意:Data Lake Gen 2 和 Azure ML 计算实例都在同一个虚拟网络下。
以下是我的问题:
- 如何避免两次下载parquet文件?
- 如何使安装过程更快?
我已经完成了这个线程,但那里的讨论没有结束
我使用的 Python 代码如下:
azure - Azure ML 表格数据集:缺少 1 个必需的位置参数:'stream_column'
对于 AzureML ( azureml.data.TabularDataset
) 的表格数据集的 Python API,已经引入了两种实验方法:
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
mount(stream_column, mount_point=None)
参数stream_column
已定义为要挂载或下载的流列。
的实际含义是stream_column
什么?我在哪里看不到任何例子?
任何指针都会有所帮助。
堆栈跟踪:
python - AzureML:镶木地板文件为空时数据集配置文件失败
我使用 Azure ML python API 创建了一个表格数据集。有问题的数据是一组 parquet 文件(约 10K parquet 文件,每个大小为 330 KB),位于 Azure Data Lake Gen 2 中,分布在多个分区中。当我为数据集触发“生成配置文件”操作时,它会在处理空镶木地板文件时引发以下错误,然后配置文件生成停止。
空的 parquet 文件是指如果我使用 pandas ( pd.read_parquet
) 读取单个 parquet 文件,它会导致一个空的 DF (df.empty == True)。
任何避免此错误的建议将不胜感激。
azure - AzureML:当镶木地板文件为空时,TabularDataset.to_pandas_dataframe() 挂起
我使用 Azure ML python API 创建了一个表格数据集。有问题的数据是一组 parquet 文件(约 10K parquet 文件,每个大小为 330 KB),位于 Azure Data Lake Gen 2 中,分布在多个分区中。当我尝试使用 API 加载数据集时TabularDataset.to_pandas_dataframe()
,如果数据集中包含空的镶木地板文件,它将永远继续(挂起)。如果表格数据集不包含那些空的 parquet 文件,则TabularDataset.to_pandas_dataframe()
在几分钟内完成。
空镶木地板文件是指如果我使用 pandas (pd.read_parquet()) 读取单个镶木地板文件,则会导致空 DF (df.empty == True)。
我在处理提到的另一个问题时发现了根本原因[here][1]
。
TabularDataset.to_pandas_dataframe()
我的问题是,即使有空的镶木地板文件,如何才能工作?
azureml - azureml.contrib.dataset 与 azureml.data
看起来 AzureML Python SDK 有两个通过 API 公开的数据集包:
文档没有明确提到区别或者我们什么时候应该使用哪一个?但是,它肯定会造成混乱。例如,有两个通过 API 公开的表格数据集类。它们针对不同的功能有不同的 API:
关于何时应该使用哪个包的任何建议都会有所帮助。
azure-storage - 为什么 AzureML SDK 会破坏默认数据存储?
我已尝试按照 此处的文档说明进行操作(请参阅下面的代码),并且管道似乎运行正常。但是,当我在 ML Studio 上查看它时,它说管道已失败,因为容器不存在。
更糟糕的是,如果我登录到 Microsoft Azure 存储资源管理器,默认数据存储似乎以某种方式损坏并显示以下消息:The specified container does not exist.
. 在运行此之前,我能够将文件和文件夹添加到容器中。
我现在已经在两个单独的 ML 实例上进行了尝试。
有谁知道为什么?
我需要保留一些数据,所以我使用了一个OutputFileDatasetConfig
对象,并且我在 Azure ML 计算实例上运行下面的代码。
python - 什么是有效的 Azure ML Workspace 连接参数选项?
我想用 Azure Devops 中的两个 python 包构建一个 Azure ML 环境。为此,我需要一个与 Azure Devops 的工作区连接。一个包发布到工件提要,我可以使用 python SDK 使用个人访问令牌访问它:
但是,另一方面,我需要从 Azure Devops 中的 git 存储库获取包。Python SDK和底层REST API的文档没有提供参数的选项,只是它们需要是字符串(参见链接)。
我的问题:以下论点有哪些选择:
- 身份验证类型
- 类别
- 值格式
我需要为目标参数设置什么,以便我可以使用可能不同的身份验证连接到 Azure DevOps 存储库?