hadoop - Druid 批量索引 inputSpec 类型粒度，错误“作业中未指定输入路径”

Question

我正在按照此处编写的说明进行操作：http: //druid.io/docs/0.9.2/ingestion/batch-ingestion.html（滚动到“InputSpec 规范”，查找“粒度”）。

我在我的索引任务 JSON 中有：

"inputSpec": {
  "type": "granularity",
  "dataGranularity": "DAY",
  "inputPath": "hdfs://hadoop:9000/druid/events/interview",
  "filePattern": ".*",
  "pathFormat": "'y'=yyyy/'m'=MM/'d'=dd"
}

我已经像这样在 HDFS 中组织了我的文件（我是故意这样做的，以为我会在索引任务中使用“粒度”类型）：

我不断收到此错误（索引失败）：

Caused by: java.io.IOException: No input paths specified in job
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:231) ~[?:?]
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:340) ~[?:?]
    at org.apache.hadoop.mapreduce.JobSubmitter.writeNewSplits(JobSubmitter.java:493) ~[?:?]
    at org.apache.hadoop.mapreduce.JobSubmitter.writeSplits(JobSubmitter.java:510) ~[?:?]
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:394) ~[?:?]
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285) ~[?:?]

谷歌了一下，有两个页面在谈论同样的问题：

两者都提到将“filePattern”的值设置为“.*”。这样做了，没有运气。

为了确认我的 Druid-Hadoop 链接有效，我尝试将 inputSpec 更改为静态：

"inputSpec": {
  "type": "static",
  "paths": "hdfs://hadoop:9000/druid/events/interview/y=2016/m=11/d=06/event.json,hdfs://hadoop:9000/druid/events/interview/y=2016/m=11/d=07/event.json"
}

有用。所以，我的 Druid 和 Hadoop 没问题。

这个“粒度” inputSpec 在 Druid 中是否被破坏（我使用的是 0.9.2）？因为我在 inputSpec （粒度类型一）中没有看到任何错误；至少不是根据我阅读的文档和论坛。

与此同时，我可以使用静态的（并构建我的冗长路径字符串），但“粒度”类型将是理想的（如果它有效的话）。

任何人都可以在这里阐明一下吗？

谢谢。

score 0 · Accepted Answer

0

尝试在路径模式的末尾添加 / ： "pathFormat": "'y'=yyyy/'m'=MM/'d'=dd/"

于 2017-08-09T20:57:05.580 回答

hadoop - Druid 批量索引 inputSpec 类型粒度，错误“作业中未指定输入路径”

1 回答 1

Related

Reference