“mlops”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

36 浏览

kubernetes - 排队后气流不会记录日志

我已经使用 KubernetesExecutor 在 Kubernetes 上部署了 Airflow。在我尝试获取日志之前，一切似乎都运行良好。UI 确实向我显示了日志，但实际上并没有写入完整的日志。对于我执行的每个任务，使用尽可能多的打印语句，日志只会显示到排队状态，也就是说，我看不到任何记录的消息。我尝试过使用常见的打印语句以及日志导入。此外，我尝试使用不同的 Helm 图表，并且在所有这些图表中我得到相同的结果。从 Kubernetes pod 本身读取日志给了我与气流 UI 相同的结果。

[2021-08-16 21:47:44,062] {dagbag.py:448} INFO - 从 /home/airflow/.local/lib/python3.8/site-packages/airflow/example_dags/example_bash_operator 填充 DagBag。 py 在主机 examplebashoperatorrunme1.6ef611f7e3c143d2a7a1df5e91984a82 上运行 <TaskInstance: example_bash_operator.runme_1 2021-08-16T21:47:15.407072+00:00 [queued]>

这是完整的日志。POD 成功终止，一切似乎都正常，而不是日志。有人可以帮助我，因为我已经尝试了 yaml 文件中可能的每个参数好几天了，但仍然被困在这个问题上？

这与远程日志记录无关，因为我什至无法访问本地日志记录。

2021-08-16T22:06:13.100

0 投票

1 回答

85 浏览

mlops - 诊断 FiftyOne 应用程序的崩溃 – 日志或其他工具

我们需要通过 Web 浏览器让多个用户可以使用 FiftyOne 实例。我们需要启动一个进程并让它运行，即使我们从启动应用程序进程的会话中注销也是如此。

我正在使用以下命令来启动该过程。我在 Docker 容器中执行此操作。该容器通过 AWS EC2 在 Ubuntu 主机上运行。

如果我从终端启动此命令，它会启动允许 Web 浏览器与 FiftyOne 应用程序连接的进程。这些在我注销后仍然存在。

但是，这些过程有时会变得不可用。例如，运行 20 多个小时后，FiftyOne 崩溃并在日志文件中显示以下内容~/.fiftyone/var/lib/mongo/log/mongo.log。

（制作者cat ~/.fiftyone/var/lib/mongo/log/mongo.log | jq '{msg,t}'）

我怎样才能获得有关此崩溃原因的更多信息？

mlops voxel51 fiftyone image-annotations

2021-09-01T20:45:56.390

0 投票

0 回答

16 浏览

python - “错误：算法输出超出最大可接受输出大小 16883260 > 15728640 字节”

我正在尝试在 algorithmia（一个 MLOps 平台）上部署 Pytorch 模型并返回一个 json 字符串作为输出。我定义了一个函数，它使用模型预测给定输入图像的对象的掩码并返回预测分数数组。data = { 'pred': json.dumps(pred.tolist()) }我使用然后将其转换为 json json_string = json.dumps(data)。当我想返回data或json_string显示上述错误时。

我尝试在本地进行测试。当我打印json_string = json.dumps(data)它时，它不会抛出错误，尽管它会打印这个巨大的控制台输出几秒钟并完成执行。我不确定如何修改此代码以进行部署。

python json pytorch mlops algorithmia

2021-09-06T15:25:25.730

0 投票

1 回答

36 浏览

python - 使用 GBM 从 sklearn 管道中获取概率

我有一个管道，它接受 TFIDF 矢量化器和 GBM 二元分类器，并给我标签和概率。在生产中，我不想要标签，我只想要 1 从管道中出来的概率。我可以对管道进行更改以仅获得 1 的概率而不是标签和 0 和 1 的概率。

当我将使用此管道进行预测时，它会给我类似的东西

而我只是希望它成为

PS：我无法使用管道的输出。我希望对管道本身进行更改，这样我就不会得到标签和概率，而是得到 1 的概率

python machine-learning scikit-learn pipeline mlops

2021-09-08T05:45:33.487

0 投票

2 回答

339 浏览

amazon-web-services - 由于不可用，无法使用 Amazon EC2 实例安装 Sndfile

我正在尝试部署一个使用 TensorFlow 和 Librosa 的烧瓶应用程序。因此，作为 Librosa 的依赖项，我需要sndfile包。

当我运行我的 Flask 应用程序时，我收到此错误：

我试过了：

然后我收到这条消息：

我知道该软件包在 Amazon EC2 实例中不可用。谁能指导我如何将 sndfile 包安装到系统中？

amazon-web-services flask amazon-ec2 mlops

2021-09-08T07:59:30.787

0 投票

0 回答

28 浏览

amazon-web-services - MLFlow Pytorch 模型

我有一个训练有素的 Yolo 模型并且是 model.pt 格式，我可以上传模型以在 mlflow 中创建一个工件。但是，当我查看 yaml 文件时，它列出了一些依赖项。我确定我以错误的方式加载。

渠道：

conda-forge 依赖项：
蟒蛇=3.6.13
点子
点数：**-mlflow
- scikit-learn==0.24.2
- cloudpickle==1.6.0** 名称：mlflow-env

任何人，请让我知道如何使用预训练模型将其推送到 mlflow 以创建工件，然后将依赖项（docker）容器化以推送到 AWS ECR

amazon-web-services data-science amazon-ecr mlflow mlops

2021-09-16T06:54:00.450

0 投票

1 回答

280 浏览

azure - 在 Azure 管道中使用 Az Ml CLI 部署/更新 Azure ML 模型

如果工作区中不存在 azure ml 模型，我正在尝试部署该模型，并且当模型已在注册的工作区中可用时，仅当更新可用时才使用最新版本更新模型，但我不知道这是怎么回事在实践中工作。

Azure 管道将按每周计划运行。

azure azure-devops azure-machine-learning-service mlops

2021-10-01T06:18:00.737

0 投票

0 回答

46 浏览

amazon-web-services - 快速查看 MLOps 监控

目前，我们的团队中有 3 个机器学习模型正在生产中（2 个分类器和一个时间序列）。由于我们的 CICD 架构，带有 Sagemaker 模型监控的 Sagemaker studio 对我们来说不是正确的选择。所以现在我们有了一个 ECS 容器，里面有我们的预测模型。

我们现在想对我们的模型应用适当的模型监控。我的想法是将地面实况和预测数据存储在 s3 中，并通过 Athena 应用 quicksight 进行监控。

我的问题是：这是这样做的好方法吗？我们能以这种方式应用正确的指标吗？

amazon-web-services monitoring serverless mlops

2021-10-03T20:10:07.440

0 投票

0 回答

45 浏览

conv-neural-network - 如何将原始输入图像发送到 CNN 模型的 MLflow 服务端点？

我最近开始学习 MLflow，我正在一个简单的猫狗分类器上尝试 ML 生命周期。这是代码。

我已经正确设置了使用服务的模型mlflow serve。但是，有一个问题。我已将模型签名配置为采用特定形状的输入，并且 API 端点在发送请求时将采用一个数组。

在send_request.py文件中，我正在对 CNN 输入执行预处理，然后将 Numpy 数组作为列表发送。我想做的是，为模型设置我自己的自定义预测函数。这样端点只会将原始图像作为输入而不是数组。

我按照本教程进行操作。但不能使它适用于我的情况。

我了解在记录/保存模型时，我需要提供自定义对象。但我不确定如何获取在这些自定义模型中执行预测的模型对象。对于这种特殊情况，没有多少资源可供参考。

conv-neural-network mlflow mlops

2021-10-05T12:12:53.113

0 投票

1 回答

71 浏览

pytorch - 使用 SageMaker Pipeline 和 RegisterModel 部署 PyTorch 模型时出错

谁能提供使用SageMaker Pipeline部署 pytorch 模型的示例？

我使用 SageMaker Studio 的 MLOps 模板（用于模型构建、训练和部署的 MLOps 模板）来构建 MLOps 项目。

该模板使用 sagemaker 管道构建用于预处理、训练和注册模型的管道。部署脚本在 YAML 文件中实现，使用 CloudFormation 运行。模型注册时会自动触发部署脚本。

该模板使用 xgboost 模型来训练数据并部署模型。我想使用 Pytorch 并部署它。我成功用xgboost替换了pytorch，成功预处理了数据，训练了模型，注册了模型。但我没有在我的模型中使用 inference.py。所以我得到模型部署的错误。

更新端点的错误日志是：

我试图找到将 inference.py 用于 pytorch 模型的示例，但我找不到任何使用sagemaker 管道和RegisterModel的示例。

任何帮助，将不胜感激。

您可以在下面看到用于训练和注册模型的管道的一部分。

pytorch amazon-cloudformation amazon-sagemaker endpoint mlops

2021-10-11T08:35:57.330

问题标签 [mlops]

Reference