我很好奇当我们使用 DRUID 从本地 TSV 文件中摄取数据时,TSV 文件应该是什么样子。
它应该是这样的:
请注意,这仅用于测试:
快速启动/sample_data.tsv 文件:
姓名 姓氏 电子邮件 时间 Bob Jones bobj@gmail.com 1468839687 Billy Jones BillyJ@gmail.com 1468839769
这部分是我的尺寸:姓名姓氏电子邮件
这部分是我的实际数据: Bob Jones bobj@gmail.com 1468839687 Billy Jones BillyJ@gmail.com 1468839769
{
"type" : "index_hadoop",
"spec" : {
"ioConfig" : {
"type" : "hadoop",
"inputSpec" : {
"type" : "static",
"paths" : "quickstart/sample_data.tsv"
}
},
"dataSchema" : {
"dataSource" : "local",
"granularitySpec" : {
"type" : "uniform",
"segmentGranularity" : "hour",
"queryGranularity" : "none",
"intervals" : ["2016-07-18/2016-07-18"]
},
"parser" : {
"type" : "string",
"parseSpec" : {
"format" : "tsv",
"dimensionsSpec" : {
"dimensions" : [
"name",
"lastname",
"email"
]
},
"timestampSpec" : {
"format" : "auto",
"column" : "time"
}
}
},
"metricsSpec" : [
{
"name" : "count",
"type" : "count"
},
{
"name" : "added",
"type" : "longSum",
"fieldName" : "deleted"
}
]
}
}
}
我对我的规范文件也有一些疑问,因为我无法在文档上找到它们的答案。如果有人可以为我回答,我将不胜感激:)!
1)
我注意到在示例规范中,他们在最顶部添加了“type”:“index_hadoop”行。如果我从本地计算机的 quickstart 目录中提取 TSV 文件,我会为该类型添加什么内容?另外,我在哪里可以了解我应该在文档中为这个“类型”键输入的不同值?我没有得到解释。
2)
ioConfig 中还有一个类型变量:“type”:“hadoop”。如果我从本地计算机的 quickstart 目录中提取 TSV 文件,我会为该类型添加什么内容?
3)
对于 timestampSpec,我的 TSV 文件中的时间是 GMT。有什么办法可以将其用作格式。既然我读了你应该将它转换为UTC,在将数据发布到霸主的过程中是否有办法转换为UTC?或者我是否必须将所有这些 GMT 时间格式更改为 UTC,类似于:“time”:“2015-09-12T00:46:58.771Z”。