问题标签 [mlops]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
36 浏览

kubernetes - 排队后气流不会记录日志

我已经使用 KubernetesExecutor 在 Kubernetes 上部署了 Airflow。在我尝试获取日志之前,一切似乎都运行良好。UI 确实向我显示了日志,但实际上并没有写入完整的日志。对于我执行的每个任务,使用尽可能多的打印语句,日志只会显示到排队状态,也就是说,我看不到任何记录的消息。我尝试过使用常见的打印语句以及日志导入。此外,我尝试使用不同的 Helm 图表,并且在所有这些图表中我得到相同的结果。从 Kubernetes pod 本身读取日志​​给了我与气流 UI 相同的结果。

[2021-08-16 21:47:44,062] {dagbag.py:448} INFO - 从 /home/airflow/.local/lib/python3.8/site-packages/airflow/example_dags/example_bash_operator 填充 DagBag。 py 在主机 examplebashoperatorrunme1.6ef611f7e3c143d2a7a1df5e91984a82 上运行 <TaskInstance: example_bash_operator.runme_1 2021-08-16T21:47:15.407072+00:00 [queued]>

这是完整的日志。POD 成功终止,一切似乎都正常,而不是日志。有人可以帮助我,因为我已经尝试了 yaml 文件中可能的每个参数好几天了,但仍然被困在这个问题上?

这与远程日志记录无关,因为我什至无法访问本地日志记录。

0 投票
1 回答
85 浏览

mlops - 诊断 FiftyOne 应用程序的崩溃 – 日志或其他工具

我们需要通过 Web 浏览器让多个用户可以使用 FiftyOne 实例。我们需要启动一个进程并让它运行,即使我们从启动应用程序进程的会话中注销也是如此。

我正在使用以下命令来启动该过程。我在 Docker 容器中执行此操作。该容器通过 AWS EC2 在 Ubuntu 主机上运行。

如果我从终端启动此命令,它会启动允许 Web 浏览器与 FiftyOne 应用程序连接的进程。这些在我注销后仍然存在。

但是,这些过程有时会变得不可用。例如,运行 20 多个小时后,FiftyOne 崩溃并在日志文件中显示以下内容~/.fiftyone/var/lib/mongo/log/mongo.log

(制作者cat ~/.fiftyone/var/lib/mongo/log/mongo.log | jq '{msg,t}'

我怎样才能获得有关此崩溃原因的更多信息?

0 投票
0 回答
16 浏览

python - “错误:算法输出超出最大可接受输出大小 16883260 > 15728640 字节”

我正在尝试在 algorithmia(一个 MLOps 平台)上部署 Pytorch 模型并返回一个 json 字符串作为输出。我定义了一个函数,它使用模型预测给定输入图像的对象的掩码并返回预测分数数组。data = { 'pred': json.dumps(pred.tolist()) }我使用然后将其转换为 json json_string = json.dumps(data)。当我想返回datajson_string显示上述错误时。

我尝试在本地进行测试。当我打印json_string = json.dumps(data)它时,它不会抛出错误,尽管它会打印这个巨大的控制台输出几秒钟并完成执行。我不确定如何修改此代码以进行部署。

0 投票
1 回答
36 浏览

python - 使用 GBM 从 sklearn 管道中获取概率

我有一个管道,它接受 TFIDF 矢量化器和 GBM 二元分类器,并给我标签和概率。在生产中,我不想要标签,我只想要 1 从管道中出来的概率。我可以对管道进行更改以仅获得 1 的概率而不是标签和 0 和 1 的概率。

当我将使用此管道进行预测时,它会给我类似的东西

而我只是希望它成为

PS:我无法使用管道的输出。我希望对管道本身进行更改,这样我就不会得到标签和概率,而是得到 1 的概率

0 投票
2 回答
339 浏览

amazon-web-services - 由于不可用,无法使用 Amazon EC2 实例安装 Sndfile

我正在尝试部署一个使用 TensorFlow 和 Librosa 的烧瓶应用程序。因此,作为 Librosa 的依赖项,我需要sndfile包。

当我运行我的 Flask 应用程序时,我收到此错误:

我试过了:

然后我收到这条消息:

我知道该软件包在 Amazon EC2 实例中不可用。谁能指导我如何将 sndfile 包安装到系统中?

0 投票
0 回答
28 浏览

amazon-web-services - MLFlow Pytorch 模型

我有一个训练有素的 Yolo 模型并且是 model.pt 格式,我可以上传模型以在 mlflow 中创建一个工件。但是,当我查看 yaml 文件时,它列出了一些依赖项。我确定我以错误的方式加载。

渠道:

  • conda-forge 依赖项:
  • 蟒蛇=3.6.13
  • 点子
  • 点数:**-mlflow
    • scikit-learn==0.24.2
    • cloudpickle==1.6.0** 名称:mlflow-env

任何人,请让我知道如何使用预训练模型将其推送到 mlflow 以创建工件,然后将依赖项(docker)容器化以推送到 AWS ECR

0 投票
1 回答
280 浏览

azure - 在 Azure 管道中使用 Az Ml CLI 部署/更新 Azure ML 模型

如果工作区中不存在 azure ml 模型,我正在尝试部署该模型,并且当模型已在注册的工作区中可用时,仅当更新可用时才使用最新版本更新模型,但我不知道这是怎么回事在实践中工作。

Azure 管道将按每周计划运行。

0 投票
0 回答
46 浏览

amazon-web-services - 快速查看 MLOps 监控

目前,我们的团队中有 3 个机器学习模型正在生产中(2 个分类器和一个时间序列)。由于我们的 CICD 架构,带有 Sagemaker 模型监控的 Sagemaker studio 对我们来说不是正确的选择。所以现在我们有了一个 ECS 容器,里面有我们的预测模型。

我们现在想对我们的模型应用适当的模型监控。我的想法是将地面实况和预测数据存储在 s3 中,并通过 Athena 应用 quicksight 进行监控。

我的问题是:这是这样做的好方法吗?我们能以这种方式应用正确的指标吗?

0 投票
0 回答
45 浏览

conv-neural-network - 如何将原始输入图像发送到 CNN 模型的 MLflow 服务端点?

我最近开始学习 MLflow,我正在一个简单的猫狗分类器上尝试 ML 生命周期。是代码。

我已经正确设置了使用服务的模型mlflow serve。但是,有一个问题。我已将模型签名配置为采用特定形状的输入,并且 API 端点在发送请求时将采用一个数组。

send_request.py文件中,我正在对 CNN 输入执行预处理,然后将 Numpy 数组作为列表发送。我想做的是,为模型设置我自己的自定义预测函数。这样端点只会将原始图像作为输入而不是数组。

我按照教程进行操作。但不能使它适用于我的情况。

我了解在记录/保存模型时,我需要提供自定义对象。但我不确定如何获取在这些自定义模型中执行预测的模型对象。对于这种特殊情况,没有多少资源可供参考。

0 投票
1 回答
71 浏览

pytorch - 使用 SageMaker Pipeline 和 RegisterModel 部署 PyTorch 模型时出错

谁能提供使用SageMaker Pipeline部署 pytorch 模型的示例?

我使用 SageMaker Studio 的 MLOps 模板(用于模型构建、训练和部署的 MLOps 模板)来构建 MLOps 项目。

该模板使用 sagemaker 管道构建用于预处理、训练和注册模型的管道。部署脚本在 YAML 文件中实现,使用 CloudFormation 运行。模型注册时会自动触发部署脚本。

该模板使用 xgboost 模型来训练数据并部署模型。我想使用 Pytorch 并部署它。我成功用xgboost替换了pytorch,成功预处理了数据,训练了模型,注册了模型。但我没有在我的模型中使用 inference.py。所以我得到模型部署的错误。

更新端点的错误日志是:

我试图找到将 inference.py 用于 pytorch 模型的示例,但我找不到任何使用sagemaker 管道RegisterModel的示例。

任何帮助,将不胜感激。

您可以在下面看到用于训练和注册模型的管道的一部分。