“azureml-python-sdk”的相关标签问题

0 投票

1 回答

283 浏览

azure-machine-learning-service - 无法从 azureml-sdk（版本 1.12.0）中的 Datastore 创建 pyspark DataFrame

我正在尝试使用 azureml-sdk 使用以下代码将 CSV 文件中的内容读入 Spark DataFrame，但抛出异常。

代码抛出异常

例外

但是，我可以使用以下代码读取和打印数据，即 create as Pandaa DataFrame。

工作代码

2020-09-11T01:38:28.583

0 投票

1 回答

139 浏览

python - 使用推理模式时如何删除输入周围的包装器

当使用 Inference Schema 为我的 AzureML 端点自动生成 swagger 文档时（详见此处和此处），我看到它在我的 input_sample 周围创建了一个包装器。有没有办法不将输入包装在这个“数据”包装器中？

这是我的 score.py 的样子：

python inference azure-machine-learning-service azureml azureml-python-sdk

2020-09-24T21:20:58.753

0 投票

0 回答

75 浏览

azure - Azure ML - 尽管启用了自动缩放，但 AKS 服务部署无法处理并发请求

我使用 Azure Kubernetes 服务在 Azure ML 工作区中部署了大约 23 个模型（总计 1.57 GB）。对于 AKS 集群，我使用了 3 个 D8sv3 节点，并为最多 6 个节点的集群启用了集群自动缩放。AksWebService 配置有 4.4 核、16 GB 内存。我为 Web 服务启用了 pod 自动缩放，将 autoscale_max_replicas 设置为 40：

我尝试使用 10 个并发用户（使用 JMeter）运行负载测试。并且我监控了集群应用洞察：

我可以看到节点和 Pod 扩展。但是，CPU/内存利用率没有峰值。对于 10 个并发请求，只有 5 到 6 个请求通过，其余的则失败。当我向部署的端点发送单个请求时，会在 7 到 9 秒内生成响应。但是，在负载测试日志中，有很多请求需要超过 15 秒才能生成响应。并且请求花费超过 25 秒，失败并显示状态码 503。max_request_wait_time由于这个原因，我增加了，但是，我不明白为什么尽管计算量如此之大，它会花费这么多时间，并且仪表板显示内存是甚至没有使用 30%。我应该改变replica_max_concurrent_requests参数吗？还是我应该增加autoscale_max_replicas更多？生产中的并发请求负载有时可能会达到 100，有什么解决方案吗？

将不胜感激任何建议。谢谢。

azure kubernetes azure-aks azureml azureml-python-sdk

2020-10-01T11:04:48.777

0 投票

1 回答

258 浏览

python - 有没有办法在 Azure ML Studio 中取消注册环境

我正在尝试在 Azure ML 中部署一个模型，并不断从我的 score.py 中获取错误“找不到模型”。所以我决定重新从头开始。我注册了我的自定义环境，并且 Azure ML API for Environment 类似乎没有“删除”或“取消注册”之类的内容。有没有办法解决这个问题？谢谢

python azure azureml azureml-python-sdk

2020-10-22T16:12:00.473

0 投票

1 回答

137 浏览

azure - Azure ML 中的参数化 SQL 查询

背景：似乎有一种方法可以DataPath使用PipelineParameter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines进行参数化-展示数据路径和管道参数.ipynb

但我想用 PipelineParameter 参数化我的 SQL 查询，例如，用这个查询

我想使用 PipelineParameter 来参数化10和20asparam_1和param_2. 这可能吗？

azure azure-sql-database azureml azureml-python-sdk

2020-10-23T23:52:51.040

0 投票

2 回答

632 浏览

azure-machine-learning-service - Azure ML FileDataset 注册，但无法访问 Data Labeling 项目

目标：使用来自较大 FileDataset 的随机抽样生成一个下采样 FileDataset，以用于数据标签项目。

详细信息：我有一个包含数百万张图像的大型 FileDataset。每个文件名都包含有关从中提取的“部分”的详细信息。一个部分可能包含数千张图像。我想随机选择特定数量的部分以及与这些部分关联的所有图像。然后将样本注册为新数据集。

请注意，下面的代码不是直接复制和粘贴，因为出于保密原因，文件路径和变量等元素已被重命名。

问题：我在 Python SDK 中编写的代码运行并且新的 FileDataset 注册，但是当我尝试查看数据集详细信息或将其用于数据标签项目时，即使作为Owner ，我也会收到以下错误。

此外，在详细信息选项卡下Files in dataset是Unknown和Total size of files in dataset是Unavailable。

我在其他任何地方都没有遇到过这个问题。我能够以其他方式生成数据集，所以我怀疑这是代码的问题，因为我正在以非常规的方式处理数据。

附加说明：

Azure ML 版本是 1.15.0

azure-machine-learning-service azureml-python-sdk

2020-10-26T23:50:26.340

0 投票

2 回答

400 浏览

azure-machine-learning-studio - Azure ML Python SDK mini_batch_size 在 TabularDataset 的 ParallelRunConfig 上未按预期工作

我正在使用 Azure ML Python SDK 来构建自定义实验管道。我正在尝试在具有 GPU 的 4 个 VM 集群上并行运行我的表格数据集的训练。我正在关注此链接上提供的文档https://docs.microsoft.com/en-us/python/api/azureml-contrib-pipeline-steps/azureml.contrib.pipeline.steps.parallelrunconfig?view=azure-ml -py

我面临的问题是，无论我设置什么值mini_batch_size，个人运行都会获得所有行。我正在使用 EntryScript().logger 来检查传递给每个进程的行数。我看到的是，我的数据被 4 个虚拟机处理了 4 次，而不是被分成 4 个部分。我尝试将值设置mini_batch_size为1KB, 10KB, 1MB，但似乎没有任何区别。

这是我的 ParallelRunConfig 和 ParallelRunStep 代码。任何提示表示赞赏。谢谢

azure-machine-learning-studio azure-machine-learning-service azureml azureml-python-sdk

2020-11-17T04:29:21.100

0 投票

1 回答

331 浏览