我目前正在将我的应用程序的 StackDriver 日志文件发送到 BigQuery 表。我想剥离数据集并将其放入一个新的 BigQuery 表中以供稍后查询,并将这些结果呈现在我的应用程序的视图中。因为我不懂 Java,所以我将使用 python 作为我的主要语言,并创建一个 CRON 作业以每 15 分钟运行一次此脚本,以从 StackDriver 填充新的日志数据集。
剥离数据集需要两个过程:1.) 仅将原始 BigQuery 表中的一些列写入新表 2.) 在某些列中创建数据子集以写入新 BigQuery 表中的新列. 例如:
原始 BigQuery 表中的一行将包含该字符串
Mozilla/5.0 (iPad; CPU OS 5_1_1 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9B206 Safari/7534.48.3
我想将其剥离iPad
并放入设备列中,AppleWebKit
然后将其放入新 BigQuery 表中的浏览器列等中。
我知道我可以将 bigquery 库加载到 python 中以查询原始 BigQuery 表,但是我如何剥离我想要的内容并将其写入新表?这对熊猫来说是一个很好的用例吗?有没有比我目前的想法更简单的方法来完成这项任务?