mysql - Apache Drill - 查询 HDFS 和 SQL

Question

我正在尝试探索 Apache Drill。我不是数据分析师，只是一个基础设施支持人员。我看到关于 Apache Drill 的文档太有限了

我需要一些有关可与 Apache Drill 一起使用的自定义数据存储的详细信息

是否可以像 dfs 一样使用 Apache Drill 在没有 Hive 的情况下查询 HDFS
是否可以查询像 MySQL 和 Microsoft SQL 这样的旧 RDBMS

提前致谢

更新：

我的 HDFS 存储防御说错误（无效的 JSON 映射）

{  
  "type":"file",
  "enabled":true,
  "connection":"hdfs:///",
  "workspaces":{  
    "root":{  
      "location":"/",
      "writable":true,
      "storageformat":"null"
    }
  }
}

如果我用替换hdfs:///，file:///它似乎接受它。

我从文件夹中复制了所有库文件

<drill-path>/jars/3rdparty to <drill-path>/jars/

不能让它工作。请帮忙。我根本不是开发人员，我是 Infra 人。

提前致谢

score 1 · Accepted Answer

是的。

Drill 根据元数据直接识别文件的模式。有关更多信息，请参阅链接 -

https://cwiki.apache.org/confluence/display/DRILL/Connecting+to+Data+Sources

还没有。

虽然有一个 MapR 驱动程序可以让您实现相同的目标，但现在 Drill 本身并不支持它。围绕这个问题已经进行了多次讨论，并且可能很快就会出现。

score 0 · Accepted Answer

是的，drill 可以同时与 Hadoop 系统和 RDBMS 系统进行通信。事实上，您可以将查询加入两个系统。

HDFS 存储插件可以是：

{
  "type": "file",
  "enabled": true,
  "connection": "hdfs://xxx.xxx.xxx.xxx:8020/",
  "workspaces": {
    "root": {
      "location": "/user/cloudera",
      "writable": true,
      "defaultInputFormat": null
    },
    "tmp": {
      "location": "/tmp",
      "writable": true,
      "defaultInputFormat": null
    }
  },
  "formats": {
    "parquet": {
      "type": "parquet"
    },
    "psv": {
      "type": "text",
      "extensions": [
        "tbl"
      ],
      "delimiter": "|"
    },
    "csv": {
      "type": "text",
      "extensions": [
        "csv"
      ],
      "delimiter": ","
    },
    "tsv": {
      "type": "text",
      "extensions": [
        "tsv"
      ],
      "delimiter": "\t"
    },
    "json": {
      "type": "json"
    }
  }
}

默认情况下，连接 URL 将是您的 mapR/Coudera URL，端口号为 8020。您应该能够使用配置键在系统上的 Hadoop 配置中发现这一点：“ fs_defaultfs ”

mysql - Apache Drill - 查询 HDFS 和 SQL

2 回答 2

Related

Reference