hadoop - 在 DRUID 中应该如何格式化 TSV 文件？

Question

我很好奇当我们使用 DRUID 从本地 TSV 文件中摄取数据时，TSV 文件应该是什么样子。

它应该是这样的：

请注意，这仅用于测试：

快速启动/sample_data.tsv 文件：

姓名姓氏电子邮件时间 Bob Jones bobj@gmail.com 1468839687 Billy Jones BillyJ@gmail.com 1468839769

这部分是我的尺寸：姓名姓氏电子邮件
这部分是我的实际数据： Bob Jones bobj@gmail.com 1468839687 Billy Jones BillyJ@gmail.com 1468839769

{
        "type" : "index_hadoop",
    "spec" : {
        "ioConfig" : {
                        "type" : "hadoop",
            "inputSpec" : {
                "type" : "static",
                "paths" : "quickstart/sample_data.tsv"
            }
        },
        "dataSchema" : {
            "dataSource" : "local",
            "granularitySpec" : {
                "type" : "uniform",
                        "segmentGranularity" : "hour",
                        "queryGranularity" : "none",
                        "intervals" : ["2016-07-18/2016-07-18"]
            },
            "parser" : {
                "type" : "string",
                "parseSpec" : {
                    "format" : "tsv",
                    "dimensionsSpec" : {
                        "dimensions" : [
                            "name",
                            "lastname",
                            "email"
                        ]
                    },
                    "timestampSpec" : {
                                 "format" : "auto",
                         "column" : "time"
                    }
                }
            },
            "metricsSpec" : [
                {
                    "name" : "count",
                    "type" : "count"
                },
                {
                    "name" : "added",
                    "type" : "longSum",
                    "fieldName" : "deleted"
                }
            ]
        }
    }
}

我对我的规范文件也有一些疑问，因为我无法在文档上找到它们的答案。如果有人可以为我回答，我将不胜感激:)！

1)我注意到在示例规范中，他们在最顶部添加了“type”：“index_hadoop”行。如果我从本地计算机的 quickstart 目录中提取 TSV 文件，我会为该类型添加什么内容？另外，我在哪里可以了解我应该在文档中为这个“类型”键输入的不同值？我没有得到解释。

2)ioConfig 中还有一个类型变量：“type”：“hadoop”。如果我从本地计算机的 quickstart 目录中提取 TSV 文件，我会为该类型添加什么内容？

3)对于 timestampSpec，我的 TSV 文件中的时间是 GMT。有什么办法可以将其用作格式。既然我读了你应该将它转换为UTC，在将数据发布到霸主的过程中是否有办法转换为UTC？或者我是否必须将所有这些 GMT 时间格式更改为 UTC，类似于：“time”：“2015-09-12T00:46:58.771Z”。

score 0 · Accepted Answer

Druid 支持两种摄取批量数据的方式

Hadoop 索引任务
索引任务

您所指的规范是 Hadoop 索引任务，因此“类型”是“index_hadoop”，ioconfig 类型也是“hadoop”。

这是可以从本地文件读取的索引任务的示例规范： { "type": "index", "spec": { "dataSchema": { "dataSource": "wikipedia", "parser": { "type": "string", "parseSpec": { "format": "json", "timestampSpec": { "column": "timestamp", "format": "auto" }, "dimensionsSpec": { "dimensions": ["page", "language"] } } }, "metricsSpec": [{ "type": "count", "name": "count" }, { "type": "doubleSum", "name": "added", "fieldName": "added" }], "granularitySpec": { "type": "uniform", "segmentGranularity": "DAY", "queryGranularity": "NONE", "intervals": ["2013-08-31/2013-09-01"] } }, "ioConfig": { "type": "index", "firehose": { "type": "local", "baseDir": "examples/indexing/", "filter": "wikipedia_data.json" } } } }

hadoop - 在 DRUID 中应该如何格式化 TSV 文件？

1 回答 1

Related

Reference