1

我正在尝试探索 Apache Drill。我不是数据分析师,只是一个基础设施支持人员。我看到关于 Apache Drill 的文档太有限了

我需要一些有关可与 Apache Drill 一起使用的自定义数据存储的详细信息

  1. 是否可以像 dfs 一样使用 Apache Drill 在没有 Hive 的情况下查询 HDFS
  2. 是否可以查询像 MySQL 和 Microsoft SQL 这样的旧 RDBMS

提前致谢

更新:

我的 HDFS 存储防御说错误(无效的 JSON 映射)

{  
  "type":"file",
  "enabled":true,
  "connection":"hdfs:///",
  "workspaces":{  
    "root":{  
      "location":"/",
      "writable":true,
      "storageformat":"null"
    }
  }
}

如果我用 替换hdfs:///file:///它似乎接受它。

我从文件夹中复制了所有库文件

<drill-path>/jars/3rdparty to <drill-path>/jars/

不能让它工作。请帮忙。我根本不是开发人员,我是 Infra 人。

提前致谢

4

2 回答 2

1
  1. 是的。

Drill 根据元数据直接识别文件的模式。有关更多信息,请参阅链接 -

https://cwiki.apache.org/confluence/display/DRILL/Connecting+to+Data+Sources

  1. 还没有。

虽然有一个 MapR 驱动程序可以让您实现相同的目标,但现在 Drill 本身并不支持它。围绕这个问题已经进行了多次讨论,并且可能很快就会出现。

于 2015-02-27T13:23:30.410 回答
0

是的,drill 可以同时与 Hadoop 系统和 RDBMS 系统进行通信。事实上,您可以将查询加入两个系统。

HDFS 存储插件可以是:

{
  "type": "file",
  "enabled": true,
  "connection": "hdfs://xxx.xxx.xxx.xxx:8020/",
  "workspaces": {
    "root": {
      "location": "/user/cloudera",
      "writable": true,
      "defaultInputFormat": null
    },
    "tmp": {
      "location": "/tmp",
      "writable": true,
      "defaultInputFormat": null
    }
  },
  "formats": {
    "parquet": {
      "type": "parquet"
    },
    "psv": {
      "type": "text",
      "extensions": [
        "tbl"
      ],
      "delimiter": "|"
    },
    "csv": {
      "type": "text",
      "extensions": [
        "csv"
      ],
      "delimiter": ","
    },
    "tsv": {
      "type": "text",
      "extensions": [
        "tsv"
      ],
      "delimiter": "\t"
    },
    "json": {
      "type": "json"
    }
  }
}

默认情况下,连接 URL 将是您的 mapR/Coudera URL,端口号为 8020。您应该能够使用配置键在系统上的 Hadoop 配置中发现这一点:“ fs_defaultfs

于 2015-11-26T07:01:54.527 回答