我已经设法在 ubuntu 14.04 无头虚拟机上安装了 apache Drill。
我已经放置了一个我想要对其执行查询的 csv 文件。
我阅读了教程,但当我只想快速入门时,这些教程对我来说毫无意义。
请指教。
我已经设法在 ubuntu 14.04 无头虚拟机上安装了 apache Drill。
我已经放置了一个我想要对其执行查询的 csv 文件。
我阅读了教程,但当我只想快速入门时,这些教程对我来说毫无意义。
请指教。
如果您的 CSV 没有标题行,请像这样查询文件:
select * from dfs.`/Users/khahn/drill/apache-drill-1.1.0/csv_no_header.csv`;
+------------------------+
| columns |
+------------------------+
| ["hello","1","2","3"] |
| ["hello","1","2","3"] |
| ["hello","1","2","3"] |
| ["hello","1","2","3"] |
| ["hello","1","2","3"] |
| ["hello","1","2","3"] |
| ["hello","1","2","3"] |
+------------------------+
7 rows selected (1.427 seconds)
如果您的 csv 确实有标题行,则需要将 skipFirstLine 属性添加到存储插件(本示例中为 dfs)定义中:
"csv": {
"type": "text",
"extensions": [
"csv"
],
"skipFirstLine": true,
"delimiter": ","
},
Apache Drill 文档中描述了通过 REST 更新存储插件。
带有标题行的 CSV:
name, num1, num2,num3
hello,1,2,3
hello,1,2,3
hello,1,2,3
hello,1,2,3
hello,1,2,3
hello,1,2,3
hello,1,2,3
选择全部的查询与没有标题的 CSV 查询相同。输出也将是相同的。
要查询单个列,请使用 COLUMNS[n] 语法。
可能必须进行其他存储插件配置更改,具体取决于您的 CSV 文件内容。请参阅配置 Drill 以读取文本文件。