我发现 Google ml 引擎需要云存储、大查询等中的数据。有没有办法将数据流式传输到 ml-engine。例如,假设我需要使用 WordPress 或 Drupal 站点中的数据来创建 tensorflow 模型,比如垃圾邮件检测器。一种方法是将整个数据导出为 CSV 并使用 google-cloud--php 库将其上传到云存储。这里的问题是,对于每一个微小的变化,我们都必须上传整个数据。有没有更好的办法?
问问题
197 次
1 回答
0
通过微小的更改,您的意思是“当您获得新数据时,您必须将所有内容 - 旧数据和新数据 - 再次上传到 gcs”?一个想法是按某个时间表仅将新数据导出到 gcs,随着时间的推移制作许多 csv 文件。您可以编写训练器以获取文件模式并使用get_matching_files/Glob或多个文件路径对其进行扩展。
您还可以修改您的训练代码以从旧的检查点开始,并仅在新数据(位于其自己的文件中)上进行几个步骤的训练。
于 2017-07-12T00:16:55.723 回答