问题标签 [google-cloud-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
648 浏览

tensorflow - 字段:version.deployment_uri 错误:gs://my-bucket/ml/中文件的总大小为x字节,超过了允许的最大值1073741824字节

尝试在谷歌云控制台中创建新版本时,出现如下错误,

字段:version.deployment_uri 错误:gs://my-bucket/ml/ 中文件的总大小为 2150116163 字节,超出了允许的最大值 1073741824 字节。

我的模型是一个 RNN 模型。我相信嵌入序列,词汇大小,可能是大型模型的原因。

是否有可以针对较大型号调整的配额设置?

0 投票
1 回答
65 浏览

google-cloud-ml - 在具有 GPU 队列的 GC ML 上部署 TF 1.0 永远

我正在使用以下参数:

  • scale_tier = 自定义
  • master_type = standard_gpu
  • worker_count = 0
  • ps_count = 0
  • runtime_version = 1.0

日志显示消息Job <job_name> is queued.,而不会打印我通常看到的下一条日志消息 ( Waiting for job to be provisioned.)。我的工作被这样卡住了 30 分钟,我已经尝试了两次。

我尝试在没有 GPU 的情况下提交相同的作业(即 scale_tier = BASIC),然后它进入配置阶段并最终完成。

可能会发生什么?

0 投票
1 回答
67 浏览

google-cloud-ml - google.cloud.ml.dataflow.batch_prediction.PredictionDoFn 中的错误处理逻辑错误

我在看最新版本 ( obtained from gs://cloud-ml/sdk/cloudml-0.1.9-alpha.dataflow.tar.gz)

在第 153-159 行google/cloud/ml/dataflow/batch_prediction.py,我们有以下代码:

但是,Exception 对象e可能没有属性error_message。这有时会给我如下错误:

  • AttributeError: 'exceptions.RuntimeError' object has no attribute 'error_message' [while running 'Evaluate/ParDo(PredictionDoFn)']
  • AttributeError: 'exceptions.KeyError' object has no attribute 'error_message' [while running 'Evaluate/ParDo(PredictionDoFn)']
  • ETC

我认为不应引发这些错误,因为 except 块的全部意义在于捕获这些错误并将它们作为辅助输出传递到 ParDo 之外。

0 投票
1 回答
138 浏览

tensorflow - {"error": "加载模型时出错"} 使用 /ml/v1beta1/ml.projects.predict

使用以下 API Explorer 和正文,我收到错误 {"error": "Error loading the model"}。我打算开始使用https://developers.google.com/resources/api-libraries/documentation/ml/v1beta1/python/latest/ml_v1beta1.projects.html#predict,但想先验证一切正常。

有没有办法查看实际错误?


https://developers.google.com/apis-explorer/?authuser=1#p/ml/v1beta1/ml.projects.predict

发布https://ml.googleapis.com/v1beta1/projects/ {project}/models/{ model_name }/versions/v1:predict?key={YOUR_API_KEY}

{ "httpBody": { "data": "[{\"placeholder_name\": [44, 158, 178, 156, 111, 101, 110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], \ "键\": 1}]" } }

200

缓存控制:私有内容编码:gzip 内容长度:53 内容类型:文本/html;charset=utf-8 日期:2017 年 2 月 22 日星期三 05:25:14 GMT 服务器:ESF 变化:Origin、X-Origin、Referer

{"error": "加载模型时出错"} `

0 投票
0 回答
221 浏览

tensorflow - 将 DNNRegressor 模型导出到 Cloud ML

我正在尝试使用该操作:

tf.contrib.learn.DNNRegressor.export(*args, **kwargs)

创建 Google Cloud ML 上传所需的 export.meta 文件。我搜索了文档(和谷歌),但没有找到一个实际的例子。

我写了一个非常简单的回归器,它近似于两个数字之间的总和(小于一个):

一切正常,但我无法构建导出功能所需的输入和输出映射器。上传到 Cloud ML 时,出现如下错误:

模型元图没有输出集合。

谢谢!

0 投票
1 回答
183 浏览

google-cloud-ml - 在本地安装 google cloud ml 的问题

我已按照以下说明在本地设置 google-cloud-ml:MAC/LINUX

google-cloud-ml 设置

但是在使用此命令验证设置时出现以下错误

Traceback(最近一次调用最后一次):文件“”,第 70 行,在文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/init .py ”中,第 16 行,从 google.cloud.ml.dataflow._analyzer 导入 AnalyzeModel 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/init.py”,第 22 行,从 _ml_transforms 导入 DeployVersion 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_ml_transforms.py”,第 24 行,在 import _ml_functions as ml_func File "/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_ml_functions.py",第 25 行,来自 google.cloud .ml.io.coders 导入 TrainingJobResult 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/io/init.py”,第 21 行,从转换导入 LoadFeatures 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/io/transforms.py”,第 23 行,在从 google.cloud.ml.dataflow.io 导入 tfrecordio 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/io/init .py ”,第 15 行,在导入 tfrecordio 文件中“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/io/tfrecordio.py”,第 16 行,在_crc32c_fn = snappy._crc32c # pylint: disable=protected-access AttributeError: 'module' 对象没有属性 '_crc32c'

看起来谷歌云的数据流库有一些问题。

我尝试使用以下命令升级数据流库

但现在,另一个错误。以下是堆栈跟踪:

Traceback(最近一次调用最后一次):文件“”,第 70 行,在文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/init .py ”中,第 16 行,从 google.cloud.ml.dataflow._analyzer 导入 AnalyzeModel 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/init .py ”,第 17 行,从 _analyzer 导入分析模型文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_analyzer.py”,第 19 行,在将apache_beam导入为梁文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/init.py”,第 78 行,从 apache_beam 导入 io 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/init.py”,第 21 行,从 apache_beam.io.avroio 导入 * 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/avroio.py”,第 29 行,从 apache_beam.io 导入 filebasedsource 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/filebasedsource.py”,第 32 行,从 apache_beam.io 导入 concat_source文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/concat_source.py”,第 24 行,从 apache_beam.io 导入 iobase 文件“/Users/pratyusha/miniconda2 /envs/cloudml/lib/python2.7/site-packages/apache_beam/io/iobase.py",第 853 行,从 apache_beam.runners.dataflow.native_io.iobase 导入 * 文件"/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/runners/init .py”,第 23 行,从 apache_beam.runners.dataflow_runner 导入 DataflowRunner 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/runners/dataflow_runner.py”,行32,从 apache_beam.internal 导入 json_value 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/internal/json_value.py”,第 20 行,从 apitools.base。 py import extra_types 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apitools/base/py/init .py ”,第 23 行,从 apitools.base.py.credentials_lib 导入* 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apitools/base/py/credentials_lib.py”,第 50 行,从 oauth2client 导入locked_file

0 投票
1 回答
457 浏览

tensorflow - 使用 tf.learn.Experiment 禁用 eval

如果我使用 tf.learn.Experiment,禁用评估的最佳方法是什么?

我正在运行这个构建实验的模型。

要调试评估问题,我想阻止评估运行。是否有捷径可寻?

0 投票
2 回答
1489 浏览

tensorflow - 在 Google Cloud ML 中提交作业培训时出错

我目前正在尝试使用 Facenet(用于人脸识别的 Tensorflow 库)提交关于 Google Cloud ML 的工作培训。我目前正在尝试这个(链接在这里)库的一部分,它对模型进行训练。

转到 Google Cloud ML,我正在关注本教程(链接在此处),它教您如何提交培训。

我能够成功地向 Google Cloud ML 提交工作培训,但出现了错误。以下是一些错误图片:

这是错误的图片:

这是来自 Google Cloud Jobs 日志的错误

这是 Google Cloud Jobs 中错误日志的图片

以下是 Google Cloud Job 日志上的更详细图片

以下是 Google Cloud Job 日志上的更详细图片 (1)

以下是 Google Cloud Job 日志上的更详细图片 (2)

提交作业请求是成功的,它甚至在等待 Tensorflow 启动,但之后就出现了那个错误。

我用来运行它的命令在这里:

对于如何解决这个问题,有任何的建议吗?谢谢!

0 投票
2 回答
186 浏览

python - CloudML 的正确模块打包

我有一个 Python 项目,其结构如下:

  • 项目/包含:
  • 设置.py;project/ 内部 project/ 文件夹包含一个init .py 空文件、带有子模块的文件夹、一个仅包含 .yaml 文件(例如 foo.yaml)的 conf/ 文件夹和一个 s_main.py 脚本(我的主要入口点)

这是我的 setup.py 文件:

当我尝试“pip install project/”时,它在我的 PC 上运行良好,我在 [...]/python2.7/site-packages/project/conf/ 中看到 conf/ 文件夹和我的所有 *.yaml 文件在本地运行 cloudML,它也可以。我使用以下命令:

但是当我在 cloudML 上运行它时,它不起作用。我运行以下命令:

日志清楚地显示 conf/ 文件夹从未包含在构建包中,并且我的运行失败,因为未找到预期的 *.yaml 文件。任何想法?

0 投票
1 回答
1525 浏览

stackdriver - 我们可以禁用 GCP Stackdriver 的日志行截断吗?

Stackdriver 日志似乎会截断超过 ~256 个字符的日志行。这真的很烦人,因为 Stackdriver 也不允许您过滤与特定字符串匹配的日志行,然后找到其相邻的日志行。

我们的用例是有时,我们想要记录很长的消息(例如,堆栈跟踪)。然后,我们希望能够通过仅出现在第一行的标识符来过滤这些消息。我们不能跨多行输出消息,因为我们在过滤时只能找到第一行而不是相邻的行。我们也无法将整个消息输出到 1 行,因为 Stackdriver 将我们截断为 ~256 个字符。这使得调试许多错误几乎是不可能的。

FTR,奇怪的是,我并不总是在 256 个字符处截断 - 有时是 260,有时是 256,我认为其他时间可能介于两者之间。

或者,除了 Stackdriver 之外,还有其他方法可以查看 Google Cloud ML 日志吗?