问题标签 [mlops]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kubernetes - 排队后气流不会记录日志
我已经使用 KubernetesExecutor 在 Kubernetes 上部署了 Airflow。在我尝试获取日志之前,一切似乎都运行良好。UI 确实向我显示了日志,但实际上并没有写入完整的日志。对于我执行的每个任务,使用尽可能多的打印语句,日志只会显示到排队状态,也就是说,我看不到任何记录的消息。我尝试过使用常见的打印语句以及日志导入。此外,我尝试使用不同的 Helm 图表,并且在所有这些图表中我得到相同的结果。从 Kubernetes pod 本身读取日志给了我与气流 UI 相同的结果。
[2021-08-16 21:47:44,062] {dagbag.py:448} INFO - 从 /home/airflow/.local/lib/python3.8/site-packages/airflow/example_dags/example_bash_operator 填充 DagBag。 py 在主机 examplebashoperatorrunme1.6ef611f7e3c143d2a7a1df5e91984a82 上运行 <TaskInstance: example_bash_operator.runme_1 2021-08-16T21:47:15.407072+00:00 [queued]>
这是完整的日志。POD 成功终止,一切似乎都正常,而不是日志。有人可以帮助我,因为我已经尝试了 yaml 文件中可能的每个参数好几天了,但仍然被困在这个问题上?
这与远程日志记录无关,因为我什至无法访问本地日志记录。
mlops - 诊断 FiftyOne 应用程序的崩溃 – 日志或其他工具
我们需要通过 Web 浏览器让多个用户可以使用 FiftyOne 实例。我们需要启动一个进程并让它运行,即使我们从启动应用程序进程的会话中注销也是如此。
我正在使用以下命令来启动该过程。我在 Docker 容器中执行此操作。该容器通过 AWS EC2 在 Ubuntu 主机上运行。
如果我从终端启动此命令,它会启动允许 Web 浏览器与 FiftyOne 应用程序连接的进程。这些在我注销后仍然存在。
但是,这些过程有时会变得不可用。例如,运行 20 多个小时后,FiftyOne 崩溃并在日志文件中显示以下内容~/.fiftyone/var/lib/mongo/log/mongo.log
。
(制作者cat ~/.fiftyone/var/lib/mongo/log/mongo.log | jq '{msg,t}'
)
我怎样才能获得有关此崩溃原因的更多信息?
python - “错误:算法输出超出最大可接受输出大小 16883260 > 15728640 字节”
我正在尝试在 algorithmia(一个 MLOps 平台)上部署 Pytorch 模型并返回一个 json 字符串作为输出。我定义了一个函数,它使用模型预测给定输入图像的对象的掩码并返回预测分数数组。data = { 'pred': json.dumps(pred.tolist()) }
我使用然后将其转换为 json json_string = json.dumps(data)
。当我想返回data
或json_string
显示上述错误时。
我尝试在本地进行测试。当我打印json_string = json.dumps(data)
它时,它不会抛出错误,尽管它会打印这个巨大的控制台输出几秒钟并完成执行。我不确定如何修改此代码以进行部署。
python - 使用 GBM 从 sklearn 管道中获取概率
我有一个管道,它接受 TFIDF 矢量化器和 GBM 二元分类器,并给我标签和概率。在生产中,我不想要标签,我只想要 1 从管道中出来的概率。我可以对管道进行更改以仅获得 1 的概率而不是标签和 0 和 1 的概率。
当我将使用此管道进行预测时,它会给我类似的东西
而我只是希望它成为
PS:我无法使用管道的输出。我希望对管道本身进行更改,这样我就不会得到标签和概率,而是得到 1 的概率
amazon-web-services - 由于不可用,无法使用 Amazon EC2 实例安装 Sndfile
我正在尝试部署一个使用 TensorFlow 和 Librosa 的烧瓶应用程序。因此,作为 Librosa 的依赖项,我需要sndfile包。
当我运行我的 Flask 应用程序时,我收到此错误:
我试过了:
然后我收到这条消息:
我知道该软件包在 Amazon EC2 实例中不可用。谁能指导我如何将 sndfile 包安装到系统中?
amazon-web-services - MLFlow Pytorch 模型
我有一个训练有素的 Yolo 模型并且是 model.pt 格式,我可以上传模型以在 mlflow 中创建一个工件。但是,当我查看 yaml 文件时,它列出了一些依赖项。我确定我以错误的方式加载。
渠道:
- conda-forge 依赖项:
- 蟒蛇=3.6.13
- 点子
- 点数:**-mlflow
- scikit-learn==0.24.2
- cloudpickle==1.6.0** 名称:mlflow-env
任何人,请让我知道如何使用预训练模型将其推送到 mlflow 以创建工件,然后将依赖项(docker)容器化以推送到 AWS ECR
azure - 在 Azure 管道中使用 Az Ml CLI 部署/更新 Azure ML 模型
如果工作区中不存在 azure ml 模型,我正在尝试部署该模型,并且当模型已在注册的工作区中可用时,仅当更新可用时才使用最新版本更新模型,但我不知道这是怎么回事在实践中工作。
Azure 管道将按每周计划运行。
amazon-web-services - 快速查看 MLOps 监控
目前,我们的团队中有 3 个机器学习模型正在生产中(2 个分类器和一个时间序列)。由于我们的 CICD 架构,带有 Sagemaker 模型监控的 Sagemaker studio 对我们来说不是正确的选择。所以现在我们有了一个 ECS 容器,里面有我们的预测模型。
我们现在想对我们的模型应用适当的模型监控。我的想法是将地面实况和预测数据存储在 s3 中,并通过 Athena 应用 quicksight 进行监控。
我的问题是:这是这样做的好方法吗?我们能以这种方式应用正确的指标吗?
conv-neural-network - 如何将原始输入图像发送到 CNN 模型的 MLflow 服务端点?
我最近开始学习 MLflow,我正在一个简单的猫狗分类器上尝试 ML 生命周期。这是代码。
我已经正确设置了使用服务的模型mlflow serve
。但是,有一个问题。我已将模型签名配置为采用特定形状的输入,并且 API 端点在发送请求时将采用一个数组。
在send_request.py文件中,我正在对 CNN 输入执行预处理,然后将 Numpy 数组作为列表发送。我想做的是,为模型设置我自己的自定义预测函数。这样端点只会将原始图像作为输入而不是数组。
我按照本教程进行操作。但不能使它适用于我的情况。
我了解在记录/保存模型时,我需要提供自定义对象。但我不确定如何获取在这些自定义模型中执行预测的模型对象。对于这种特殊情况,没有多少资源可供参考。
pytorch - 使用 SageMaker Pipeline 和 RegisterModel 部署 PyTorch 模型时出错
谁能提供使用SageMaker Pipeline部署 pytorch 模型的示例?
我使用 SageMaker Studio 的 MLOps 模板(用于模型构建、训练和部署的 MLOps 模板)来构建 MLOps 项目。
该模板使用 sagemaker 管道构建用于预处理、训练和注册模型的管道。部署脚本在 YAML 文件中实现,使用 CloudFormation 运行。模型注册时会自动触发部署脚本。
该模板使用 xgboost 模型来训练数据并部署模型。我想使用 Pytorch 并部署它。我成功用xgboost替换了pytorch,成功预处理了数据,训练了模型,注册了模型。但我没有在我的模型中使用 inference.py。所以我得到模型部署的错误。
更新端点的错误日志是:
我试图找到将 inference.py 用于 pytorch 模型的示例,但我找不到任何使用sagemaker 管道和RegisterModel的示例。
任何帮助,将不胜感激。
您可以在下面看到用于训练和注册模型的管道的一部分。