我们最近才开始研究 Pig,并且在弄清楚它在结构化数据上的语法方面遇到了挑战。鉴于下面的示例数据模型,哪个更适合该问题,Hive 或 Pig,还是“其他”?
数据模型:
Item
> id<long>
> description<string>
> source<collection of following>
> source_id<long>
> source_name<string>
> relevant_link<collection of strings>
> link_id<string>
Link
> link_id<string>
> metadata1<string>
> metadata2<string>
常用操作:
- 将各种格式的数据导入此格式
- 查询(排序、聚合、采样、汇总)数据(最好由并非都是语言专家的团队)
- 使用各种过滤器以各种格式加入和导出
这是大型数据集(150-500 GB 原始文本数据)的基本数据操作。
问题/疑问:
- Pig 在加入该链接时向我们提出了挑战(pig 中的收藏品是一袋袋的袋子,变得非常抽象)。
- Hive 是否擅长/更好地管理这些集合?
- 我们预计会有很多“数据转换”活动,但是由于我们可以轻松地将数据拟合为类似 SQL 的格式,这是否使 Hive 成为更易于使用的解决方案?