我有一个必须处理大量数据收集的谷歌应用引擎应用程序。我收集的数据每天大约有数百万条记录。正如我所看到的,有两种简单的方法可以处理这个问题,以便能够分析数据:
- 1.使用logger API生成应用引擎日志,然后尝试将这些加载到一个大查询中(或者更简单地导出为CSV并使用excel进行分析)。
- 2.将数据保存在应用引擎数据存储(ndb)中,然后稍后下载该数据/尝试将其加载到大查询中。
有没有更好的方法来做到这一点?
谢谢!
我有一个必须处理大量数据收集的谷歌应用引擎应用程序。我收集的数据每天大约有数百万条记录。正如我所看到的,有两种简单的方法可以处理这个问题,以便能够分析数据:
有没有更好的方法来做到这一点?
谢谢!
BigQuery 有一个新的Streaming API,他们声称它是为大量实时数据收集而设计的。
实践建议:我们目前每天通过方法 1 记录 20M+ 多事件记录。如上所述。它工作得很好,除非不调用批量上传器(通常每 5 分钟一次),然后我们需要检测到这一点并重新运行导入器。此外,我们目前正在迁移到新的 Streaming API,但还没有投入生产,所以我不能说它有多可靠。