apache-drill - 如何快速启动 apache 钻取并对 csv 文件执行查询？

Question

我已经设法在 ubuntu 14.04 无头虚拟机上安装了 apache Drill。

我已经放置了一个我想要对其执行查询的 csv 文件。

我阅读了教程，但当我只想快速入门时，这些教程对我来说毫无意义。

请指教。

score 3 · Accepted Answer

如果您的 CSV 没有标题行，请像这样查询文件：

select * from dfs.`/Users/khahn/drill/apache-drill-1.1.0/csv_no_header.csv`;
+------------------------+
|        columns         |
+------------------------+
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
+------------------------+
7 rows selected (1.427 seconds)

如果您的 csv 确实有标题行，则需要将 skipFirstLine 属性添加到存储插件（本示例中为 dfs）定义中：

"csv": {
  "type": "text",
  "extensions": [
    "csv"
  ],
  "skipFirstLine": true,
  "delimiter": ","
},

Apache Drill 文档中描述了通过 REST 更新存储插件。

带有标题行的 CSV：

name, num1, num2,num3
hello,1,2,3
hello,1,2,3
hello,1,2,3
hello,1,2,3
hello,1,2,3
hello,1,2,3
hello,1,2,3

选择全部的查询与没有标题的 CSV 查询相同。输出也将是相同的。

要查询单个列，请使用 COLUMNS[n] 语法。

可能必须进行其他存储插件配置更改，具体取决于您的 CSV 文件内容。请参阅配置 Drill 以读取文本文件。

apache-drill - 如何快速启动 apache 钻取并对 csv 文件执行查询？

1 回答 1

Related

Reference