问题标签 [google-cloud-ml-engine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
358 浏览

tensorflow - 将 tflearn.DNN 与 google cloud ml-engine 一起使用

有没有一种好方法可以将使用 tflearn.DNN 类构建的模型部署到 Google Cloud ML Engine?SavedModel 似乎需要在预测签名定义中定义输入和输出张量,但不确定如何从 tflearn.DNN 中获取。

0 投票
1 回答
448 浏览

stackdriver - Stackdriver 日志记录未显示正确的日志

我使用 Cloud ML 和 stackdriver 日志服务已经有一段时间了。但是,今天似乎出现了问题,日志没有像往常一样出现。

在发布诸如下面的作业日志之前会出现。

但是,今天似乎出现了问题,即使作业最终从准备进入运行,这些日志也没有出现。

不能认为我在这里改变了一些东西。从上一份工作到现在,我唯一做的就是向谷歌请求更多的机器学习单元。这是一个内部问题还是我这边可能有问题?

使用流日志时,这些日志也不会显示在客户端命令行上。

0 投票
1 回答
214 浏览

tensorflow-serving - cloud ml引擎版本创建错误3

我复制并使用了这段代码。网址: http: //fdahms.com/2017/03/05/tensorflow-serving-jvm-client/

但是部署版本时出现错误。

我试图参考https://github.com/tensorflow/serving/blob/master/tensorflow_serving/example/mnist_saved_model.py修复代码

但我得到了同样的错误......

我正在使用“谷歌云机器运行引擎”我需要帮助..感谢您的阅读。

0 投票
1 回答
719 浏览

c# - 如何在 C# 中为 Cloud Machine Learning Engine 上的模型获取在线预测?

gcloud ml-engine models predict我已经成功部署在 Cloud ML Engine 上的模型上,并按照说明验证它正在使用,现在我想从我的 C# 应用程序向它发送预测。我怎么做?

0 投票
1 回答
211 浏览

google-cloud-ml-engine - 使用 google-api-php-client-services 在 google cloud ml 引擎中进行预处理

我正在使用 google-api-php-client-services 在谷歌云中训练我的 PHP 网站数据。如何在https://cloud.google.com/blog/big-data/2016/12/how-to-classify-images-with-tensorflow-using-google-cloud-machine-learning-and-中进行预处理使用这个库的云数据流?

是否有任何替代 google-api-php-client 与 PHP 中的 ml_engine 交互?

0 投票
1 回答
1011 浏览

javascript - 如何在 javascript 中为 Cloud Machine Learning Engine 上的模型获取在线预测?

gcloud ml-engine models predict我已成功部署在 Cloud ML Engine 上的模型上,并按照说明验证它是否正常工作,现在我想从我的网络应用程序/javascript 代码向它发送预测。我怎么做?

0 投票
1 回答
1410 浏览

python - 在 Google Cloud ML Engine 中使用自定义依赖项

我正在尝试将PyPI 中未列出的 python包与 Google Cloud ML Engine 一起使用。这个包有自己的依赖项,即使在 PyPI 中列出,默认情况下也没有安装在 ML 引擎环境中,即Cython包。

查看文档并不清楚在这种情况下如何进行,我尝试将这个包打包到一个.tar.gz文件中并在参数下传递它--packages,但我收到以下错误:

在我尝试使用setup.py文件并打包我的代码后,谷歌云 ml 引擎无法在其中找到包dependency_links

这是我目前的setup.py

我想通过反复试验来避免这样做,因为即使它们立即失败,将作业发送到云也要花钱。

提前致谢。

0 投票
2 回答
728 浏览

python - 如何使用云 ML 预测 csv 文件而不是 json?

也有人可以列出在 Gcloud 上训练和部署 tensorflow 模型的详细步骤吗?我有自己不想更改的代码。似乎代码必须采用某种严格的格式才能在 Gcloud 上使用,例如 task.py 文件等。

0 投票
1 回答
235 浏览

tensorflow - rnn 翻译显示在 google-cloud-ml-engine 中找不到 data_utils

我想使用 Tensorflow 创建一个聊天机器人。我正在使用“github.com/tensorflow/models/tree/master/tutorials/rnn/translate”中的代码。在 google-cloud-ml-engine 中运行代码时,我得到了异常“/usr/bin/python:没有名为 data_utils 的模块”,作业失败。这是我使用的命令,

ml_engine 日志截图 1

ml_engine 日志截图 2

是 ml_engine 还是 tensorflow 的问题?

我关注了博客'blog.kovalevskyi.com/how-to-train-a-chatbot-with-the-tensorflow-and-google-cloud-ml-3a5617289032'并最初使用'github.com/b0noI/models/tree /translate_tutorial_supports_google_cloud_ml/tutorials/rnn/translate'。它也给出了同样的错误。

0 投票
0 回答
92 浏览

tensorflow - Cloud ML 上的深度网络

我正在尝试在 Cloud ML 上训练一个非常深的模型,但是我遇到了严重的内存问题,我无法解决。该模型是一个非常深的卷积神经网络,用于自动标记音乐。

可以在下图中找到此模型。将张量为 12x38832x1 的 20 个批次插入网络中。

音乐最初是 465894x1 样本,然后被分成 12 个窗口。因此,12x38832x1。当使用 map_fn 函数时,每个循环都会有单独的 38832x1 个样本(conv1d)。

一次处理窗口比使用一个 CNN 处理整个音乐产生更好的结果。这是在将数据存储到 TFRecords 之前进行拆分的,以最大程度地减少训练期间所需的处理。这被加载到最大队列大小为 200 个样本(即 10 个批次)的队列中。

一旦出队,它首先被转置为具有 12 维,然后可以在 map_fn 函数中用于处理窗口。这在排队之前不会转置,因为第一个维度需要匹配输出的批次维度,即 [20, 50]。其中 20 是作为数据的批量大小,50 是不同的标签。

对于每个窗口,处理数据并使用较小的网络对每个 map_fn 的结果进行超级池化。窗口的处理是由一个非常深的神经网络完成的,这给我带来了一些问题,因为我给出的所有配置选项都给了我内存不足的错误。

在此处输入图像描述

作为模型,我使用的是类似于Census Tensorflow 模型的模型

首先,我不确定这是否是最好的选择,因为为了评估,构建了一个单独的图表而不是共享变量。这将需要双倍数量的参数。

其次,作为集群设置,我一直在使用一个 complex_l master、3 complex_l worker 和 3 large_model 参数服务器。我不知道我是否低估了这里所需的内存量。

我的模型以前使用过一个小得多的网络。但是,增加它的大小开始给我带来严重的内存不足错误。

我的问题是:

  1. 内存需求很大,但我确信它可以在 cloud ml 上处理。我是否低估了所需的内存量?您对此类网络的集群有何建议?

  2. 在 dispatch 函数中使用 train.server 时,是否需要传递 cluster_spec 以便在 replica_device 设置器中使用它?还是它自己分配?当不使用它并设置日志放置的 tf.configProto 时,所有变量似乎都在 master worker 上。在 task.py 中的人口普查示例中,这不会被传递。我可以假设这是正确的吗?

  3. 如何计算模型需要多少内存(粗略估计选择集群)?

  4. 还有其他 tensorflow 核心教程如何设置如此大的工作吗?(人口普查除外)

  5. 在分布式图间复制中训练一个大模型时,是所有模型都需要适合worker,还是worker只做ops然后将结果传输到PS。这是否意味着工人可以只为单一操作而拥有低内存?

PS:使用较小的模型,网络训练成功。我正在努力加深网络以获得更好的 ROC。

错误

正在进行的故障排除中出现的问题:

当使用带有参数 cluster 的 replica_device_setter 时,我注意到 master 的内存和 CPU 使用率非常低,并且检查日志放置时 master 上的操作非常少。我检查了已加载的 TF_CONFIG,它对集群字段显示以下内容:

另一方面,在tf.train.Clusterspec文档中,它只显示工人。这是否意味着主人不被视为工人?在这种情况下会发生什么?

错误是内存还是其他?EOF 错误? 在此处输入图像描述