问题标签 [google-cloud-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 字段:version.deployment_uri 错误:gs://my-bucket/ml/中文件的总大小为x字节,超过了允许的最大值1073741824字节
尝试在谷歌云控制台中创建新版本时,出现如下错误,
字段:version.deployment_uri 错误:gs://my-bucket/ml/ 中文件的总大小为 2150116163 字节,超出了允许的最大值 1073741824 字节。
我的模型是一个 RNN 模型。我相信嵌入序列,词汇大小,可能是大型模型的原因。
是否有可以针对较大型号调整的配额设置?
google-cloud-ml - 在具有 GPU 队列的 GC ML 上部署 TF 1.0 永远
我正在使用以下参数:
- scale_tier = 自定义
- master_type = standard_gpu
- worker_count = 0
- ps_count = 0
- runtime_version = 1.0
日志显示消息Job <job_name> is queued.
,而不会打印我通常看到的下一条日志消息 ( Waiting for job to be provisioned.
)。我的工作被这样卡住了 30 分钟,我已经尝试了两次。
我尝试在没有 GPU 的情况下提交相同的作业(即 scale_tier = BASIC),然后它进入配置阶段并最终完成。
可能会发生什么?
google-cloud-ml - google.cloud.ml.dataflow.batch_prediction.PredictionDoFn 中的错误处理逻辑错误
我在看最新版本 ( obtained from gs://cloud-ml/sdk/cloudml-0.1.9-alpha.dataflow.tar.gz
)
在第 153-159 行google/cloud/ml/dataflow/batch_prediction.py
,我们有以下代码:
但是,Exception 对象e
可能没有属性error_message
。这有时会给我如下错误:
AttributeError: 'exceptions.RuntimeError' object has no attribute 'error_message' [while running 'Evaluate/ParDo(PredictionDoFn)']
AttributeError: 'exceptions.KeyError' object has no attribute 'error_message' [while running 'Evaluate/ParDo(PredictionDoFn)']
- ETC
我认为不应引发这些错误,因为 except 块的全部意义在于捕获这些错误并将它们作为辅助输出传递到 ParDo 之外。
tensorflow - {"error": "加载模型时出错"} 使用 /ml/v1beta1/ml.projects.predict
使用以下 API Explorer 和正文,我收到错误 {"error": "Error loading the model"}。我打算开始使用https://developers.google.com/resources/api-libraries/documentation/ml/v1beta1/python/latest/ml_v1beta1.projects.html#predict,但想先验证一切正常。
有没有办法查看实际错误?
https://developers.google.com/apis-explorer/?authuser=1#p/ml/v1beta1/ml.projects.predict?
发布https://ml.googleapis.com/v1beta1/projects/ {project}/models/{ model_name }/versions/v1:predict?key={YOUR_API_KEY}
{ "httpBody": { "data": "[{\"placeholder_name\": [44, 158, 178, 156, 111, 101, 110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], \ "键\": 1}]" } }
200
缓存控制:私有内容编码:gzip 内容长度:53 内容类型:文本/html;charset=utf-8 日期:2017 年 2 月 22 日星期三 05:25:14 GMT 服务器:ESF 变化:Origin、X-Origin、Referer
{"error": "加载模型时出错"} `
tensorflow - 将 DNNRegressor 模型导出到 Cloud ML
我正在尝试使用该操作:
tf.contrib.learn.DNNRegressor.export(*args, **kwargs)
创建 Google Cloud ML 上传所需的 export.meta 文件。我搜索了文档(和谷歌),但没有找到一个实际的例子。
我写了一个非常简单的回归器,它近似于两个数字之间的总和(小于一个):
一切正常,但我无法构建导出功能所需的输入和输出映射器。上传到 Cloud ML 时,出现如下错误:
模型元图没有输出集合。
谢谢!
google-cloud-ml - 在本地安装 google cloud ml 的问题
我已按照以下说明在本地设置 google-cloud-ml:MAC/LINUX
但是在使用此命令验证设置时出现以下错误
Traceback(最近一次调用最后一次):文件“”,第 70 行,在文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/init .py ”中,第 16 行,从 google.cloud.ml.dataflow._analyzer 导入 AnalyzeModel 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/init.py”,第 22 行,从 _ml_transforms 导入 DeployVersion 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_ml_transforms.py”,第 24 行,在 import _ml_functions as ml_func File "/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_ml_functions.py",第 25 行,来自 google.cloud .ml.io.coders 导入 TrainingJobResult 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/io/init.py”,第 21 行,从转换导入 LoadFeatures 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/io/transforms.py”,第 23 行,在从 google.cloud.ml.dataflow.io 导入 tfrecordio 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/io/init .py ”,第 15 行,在导入 tfrecordio 文件中“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/io/tfrecordio.py”,第 16 行,在_crc32c_fn = snappy._crc32c # pylint: disable=protected-access AttributeError: 'module' 对象没有属性 '_crc32c'
看起来谷歌云的数据流库有一些问题。
我尝试使用以下命令升级数据流库
但现在,另一个错误。以下是堆栈跟踪:
Traceback(最近一次调用最后一次):文件“”,第 70 行,在文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/init .py ”中,第 16 行,从 google.cloud.ml.dataflow._analyzer 导入 AnalyzeModel 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/init .py ”,第 17 行,从 _analyzer 导入分析模型文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_analyzer.py”,第 19 行,在将apache_beam导入为梁文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/init.py”,第 78 行,从 apache_beam 导入 io 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/init.py”,第 21 行,从 apache_beam.io.avroio 导入 * 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/avroio.py”,第 29 行,从 apache_beam.io 导入 filebasedsource 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/filebasedsource.py”,第 32 行,从 apache_beam.io 导入 concat_source文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/concat_source.py”,第 24 行,从 apache_beam.io 导入 iobase 文件“/Users/pratyusha/miniconda2 /envs/cloudml/lib/python2.7/site-packages/apache_beam/io/iobase.py",第 853 行,从 apache_beam.runners.dataflow.native_io.iobase 导入 * 文件"/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/runners/init .py”,第 23 行,从 apache_beam.runners.dataflow_runner 导入 DataflowRunner 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/runners/dataflow_runner.py”,行32,从 apache_beam.internal 导入 json_value 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/internal/json_value.py”,第 20 行,从 apitools.base。 py import extra_types 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apitools/base/py/init .py ”,第 23 行,从 apitools.base.py.credentials_lib 导入* 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apitools/base/py/credentials_lib.py”,第 50 行,从 oauth2client 导入locked_file
tensorflow - 在 Google Cloud ML 中提交作业培训时出错
我目前正在尝试使用 Facenet(用于人脸识别的 Tensorflow 库)提交关于 Google Cloud ML 的工作培训。我目前正在尝试这个(链接在这里)库的一部分,它对模型进行训练。
转到 Google Cloud ML,我正在关注本教程(链接在此处),它教您如何提交培训。
我能够成功地向 Google Cloud ML 提交工作培训,但出现了错误。以下是一些错误图片:
这是来自 Google Cloud Jobs 日志的错误
以下是 Google Cloud Job 日志上的更详细图片
提交作业请求是成功的,它甚至在等待 Tensorflow 启动,但之后就出现了那个错误。
我用来运行它的命令在这里:
对于如何解决这个问题,有任何的建议吗?谢谢!
python - CloudML 的正确模块打包
我有一个 Python 项目,其结构如下:
- 项目/包含:
- 设置.py;project/ 内部 project/ 文件夹包含一个init .py 空文件、带有子模块的文件夹、一个仅包含 .yaml 文件(例如 foo.yaml)的 conf/ 文件夹和一个 s_main.py 脚本(我的主要入口点)
这是我的 setup.py 文件:
当我尝试“pip install project/”时,它在我的 PC 上运行良好,我在 [...]/python2.7/site-packages/project/conf/ 中看到 conf/ 文件夹和我的所有 *.yaml 文件在本地运行 cloudML,它也可以。我使用以下命令:
但是当我在 cloudML 上运行它时,它不起作用。我运行以下命令:
日志清楚地显示 conf/ 文件夹从未包含在构建包中,并且我的运行失败,因为未找到预期的 *.yaml 文件。任何想法?
stackdriver - 我们可以禁用 GCP Stackdriver 的日志行截断吗?
Stackdriver 日志似乎会截断超过 ~256 个字符的日志行。这真的很烦人,因为 Stackdriver 也不允许您过滤与特定字符串匹配的日志行,然后找到其相邻的日志行。
我们的用例是有时,我们想要记录很长的消息(例如,堆栈跟踪)。然后,我们希望能够通过仅出现在第一行的标识符来过滤这些消息。我们不能跨多行输出消息,因为我们在过滤时只能找到第一行而不是相邻的行。我们也无法将整个消息输出到 1 行,因为 Stackdriver 将我们截断为 ~256 个字符。这使得调试许多错误几乎是不可能的。
FTR,奇怪的是,我并不总是在 256 个字符处截断 - 有时是 260,有时是 256,我认为其他时间可能介于两者之间。
或者,除了 Stackdriver 之外,还有其他方法可以查看 Google Cloud ML 日志吗?