0

我有一个 json 文件(大小 2-3 GB)存储在 HDFS 中。我的苍蝇看起来像这种格式

{ "DateTime" : 24-08-2015T00:00:00, "Cost":53.09,"UID":9,"Channel":"some Channel"}
{ "DateTime" : 25-08-2015T00:00:00, "Cost":54.09,"UID":8,"Channel":"some Channel2"}
{ "DateTime" : 24-08-2015T00:00:00, "Cost":56.09,"UID":7,"Channel":"some Channel3"}

我正在尝试编写一个 map reduce 来将此 json 文件转换为顺序文件,然后读取 json 对象。因为我需要使用 gson 更快地执行,然后在 java 对象中转换它需要时间。我搜索了一下,发现 JAQL 可以做同样的事情,但我没有得到任何 Java MR 代码来做这件事。我什至没有找到 JAQL 的 maven jars。我无法在我的服务器上明确设置它。有没有办法使用Java代码来实现它?

4

1 回答 1

1

我会提供这个项目的Tika
描述:Apache Tika 与 Jaql 集成,使用 MapReduce for Hadoop

该项目有助于克服使用 Jaql 在 Hadoop 中处理多个小文件的低效率问题。此外,它允许使用 Apache Tika 处理和分析 Hadoop 中的二进制文档,方法是将其集成到 Jaql 中,从而生成 MapReduce 作业。请检查样品

于 2016-05-02T07:20:46.503 回答