问题标签 [google-cloud-ml-engine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 将 tflearn.DNN 与 google cloud ml-engine 一起使用
有没有一种好方法可以将使用 tflearn.DNN 类构建的模型部署到 Google Cloud ML Engine?SavedModel 似乎需要在预测签名定义中定义输入和输出张量,但不确定如何从 tflearn.DNN 中获取。
stackdriver - Stackdriver 日志记录未显示正确的日志
我使用 Cloud ML 和 stackdriver 日志服务已经有一段时间了。但是,今天似乎出现了问题,日志没有像往常一样出现。
在发布诸如下面的作业日志之前会出现。
但是,今天似乎出现了问题,即使作业最终从准备进入运行,这些日志也没有出现。
不能认为我在这里改变了一些东西。从上一份工作到现在,我唯一做的就是向谷歌请求更多的机器学习单元。这是一个内部问题还是我这边可能有问题?
使用流日志时,这些日志也不会显示在客户端命令行上。
tensorflow-serving - cloud ml引擎版本创建错误3
我复制并使用了这段代码。网址: http: //fdahms.com/2017/03/05/tensorflow-serving-jvm-client/
但是部署版本时出现错误。
但我得到了同样的错误......
我正在使用“谷歌云机器运行引擎”我需要帮助..感谢您的阅读。
c# - 如何在 C# 中为 Cloud Machine Learning Engine 上的模型获取在线预测?
gcloud ml-engine models predict
我已经成功部署在 Cloud ML Engine 上的模型上,并按照说明验证它正在使用,现在我想从我的 C# 应用程序向它发送预测。我怎么做?
google-cloud-ml-engine - 使用 google-api-php-client-services 在 google cloud ml 引擎中进行预处理
我正在使用 google-api-php-client-services 在谷歌云中训练我的 PHP 网站数据。如何在https://cloud.google.com/blog/big-data/2016/12/how-to-classify-images-with-tensorflow-using-google-cloud-machine-learning-and-中进行预处理使用这个库的云数据流?
是否有任何替代 google-api-php-client 与 PHP 中的 ml_engine 交互?
javascript - 如何在 javascript 中为 Cloud Machine Learning Engine 上的模型获取在线预测?
gcloud ml-engine models predict
我已成功部署在 Cloud ML Engine 上的模型上,并按照说明验证它是否正常工作,现在我想从我的网络应用程序/javascript 代码向它发送预测。我怎么做?
python - 在 Google Cloud ML Engine 中使用自定义依赖项
我正在尝试将PyPI 中未列出的 python包与 Google Cloud ML Engine 一起使用。这个包有自己的依赖项,即使在 PyPI 中列出,默认情况下也没有安装在 ML 引擎环境中,即Cython包。
查看文档并不清楚在这种情况下如何进行,我尝试将这个包打包到一个.tar.gz
文件中并在参数下传递它--packages
,但我收到以下错误:
在我尝试使用setup.py
文件并打包我的代码后,谷歌云 ml 引擎无法在其中找到包dependency_links
这是我目前的setup.py
:
我想通过反复试验来避免这样做,因为即使它们立即失败,将作业发送到云也要花钱。
提前致谢。
python - 如何使用云 ML 预测 csv 文件而不是 json?
也有人可以列出在 Gcloud 上训练和部署 tensorflow 模型的详细步骤吗?我有自己不想更改的代码。似乎代码必须采用某种严格的格式才能在 Gcloud 上使用,例如 task.py 文件等。
tensorflow - rnn 翻译显示在 google-cloud-ml-engine 中找不到 data_utils
我想使用 Tensorflow 创建一个聊天机器人。我正在使用“github.com/tensorflow/models/tree/master/tutorials/rnn/translate”中的代码。在 google-cloud-ml-engine 中运行代码时,我得到了异常“/usr/bin/python:没有名为 data_utils 的模块”,作业失败。这是我使用的命令,
是 ml_engine 还是 tensorflow 的问题?
我关注了博客'blog.kovalevskyi.com/how-to-train-a-chatbot-with-the-tensorflow-and-google-cloud-ml-3a5617289032'并最初使用'github.com/b0noI/models/tree /translate_tutorial_supports_google_cloud_ml/tutorials/rnn/translate'。它也给出了同样的错误。
tensorflow - Cloud ML 上的深度网络
我正在尝试在 Cloud ML 上训练一个非常深的模型,但是我遇到了严重的内存问题,我无法解决。该模型是一个非常深的卷积神经网络,用于自动标记音乐。
可以在下图中找到此模型。将张量为 12x38832x1 的 20 个批次插入网络中。
音乐最初是 465894x1 样本,然后被分成 12 个窗口。因此,12x38832x1。当使用 map_fn 函数时,每个循环都会有单独的 38832x1 个样本(conv1d)。
一次处理窗口比使用一个 CNN 处理整个音乐产生更好的结果。这是在将数据存储到 TFRecords 之前进行拆分的,以最大程度地减少训练期间所需的处理。这被加载到最大队列大小为 200 个样本(即 10 个批次)的队列中。
一旦出队,它首先被转置为具有 12 维,然后可以在 map_fn 函数中用于处理窗口。这在排队之前不会转置,因为第一个维度需要匹配输出的批次维度,即 [20, 50]。其中 20 是作为数据的批量大小,50 是不同的标签。
对于每个窗口,处理数据并使用较小的网络对每个 map_fn 的结果进行超级池化。窗口的处理是由一个非常深的神经网络完成的,这给我带来了一些问题,因为我给出的所有配置选项都给了我内存不足的错误。
作为模型,我使用的是类似于Census Tensorflow 模型的模型。
首先,我不确定这是否是最好的选择,因为为了评估,构建了一个单独的图表而不是共享变量。这将需要双倍数量的参数。
其次,作为集群设置,我一直在使用一个 complex_l master、3 complex_l worker 和 3 large_model 参数服务器。我不知道我是否低估了这里所需的内存量。
我的模型以前使用过一个小得多的网络。但是,增加它的大小开始给我带来严重的内存不足错误。
我的问题是:
内存需求很大,但我确信它可以在 cloud ml 上处理。我是否低估了所需的内存量?您对此类网络的集群有何建议?
在 dispatch 函数中使用 train.server 时,是否需要传递 cluster_spec 以便在 replica_device 设置器中使用它?还是它自己分配?当不使用它并设置日志放置的 tf.configProto 时,所有变量似乎都在 master worker 上。在 task.py 中的人口普查示例中,这不会被传递。我可以假设这是正确的吗?
如何计算模型需要多少内存(粗略估计选择集群)?
还有其他 tensorflow 核心教程如何设置如此大的工作吗?(人口普查除外)
在分布式图间复制中训练一个大模型时,是所有模型都需要适合worker,还是worker只做ops然后将结果传输到PS。这是否意味着工人可以只为单一操作而拥有低内存?
PS:使用较小的模型,网络训练成功。我正在努力加深网络以获得更好的 ROC。
正在进行的故障排除中出现的问题:
当使用带有参数 cluster 的 replica_device_setter 时,我注意到 master 的内存和 CPU 使用率非常低,并且检查日志放置时 master 上的操作非常少。我检查了已加载的 TF_CONFIG,它对集群字段显示以下内容:
另一方面,在tf.train.Clusterspec文档中,它只显示工人。这是否意味着主人不被视为工人?在这种情况下会发生什么?
错误是内存还是其他?EOF 错误?