我是数据分析/大数据分析的 n00b。我目前正在学习统计学和R。我想知道学习和使用Apache Drill的知识先决条件,以便我可以优化学习计划?
问问题
139 次
1 回答
2
Drill 仍处于 alpha 阶段,文档非常有限。如果您需要稳定性,Cloudera Impala 短期内可能是更好的选择。
您将需要学习两件事——如何将数据放入 Drill 可以使用的表单中,以及如何运行查询。后者很简单——学习 SQL。
前者更复杂。非常有限的示例使用 Twitter 的 Parquet 数据格式的本地文件,因此这是一个很好的起点。对于更现实(即分布式)的场景,了解 HDFS(Hadoop 分布式文件系统)和 Zookeeper、HBase 或 MongoDB。
警告——如果你认真对待在真正的大数据环境中使用 Drill(你不应该这样做,因为它处于 alpha 阶段),你会发现这是一个陡峭的学习曲线,包含了很多复杂的信息。打破它的一个好方法可能是:
- SQL - 试试 SQLite
- NoSQL 数据库 - MongoDB
- 分布式文件系统 - HDFS
- 管理分布式环境 - Zookeeper
- 分布式键值存储 - HBase
- 实时分布式查询——Drill 或 Impala。
于 2013-11-09T10:26:35.917 回答