java - 将 Json 转换为 hadoop 的顺序文件

Question

我有一个 json 文件（大小 2-3 GB）存储在 HDFS 中。我的苍蝇看起来像这种格式

{ "DateTime" : 24-08-2015T00:00:00, "Cost":53.09,"UID":9,"Channel":"some Channel"}
{ "DateTime" : 25-08-2015T00:00:00, "Cost":54.09,"UID":8,"Channel":"some Channel2"}
{ "DateTime" : 24-08-2015T00:00:00, "Cost":56.09,"UID":7,"Channel":"some Channel3"}

我正在尝试编写一个 map reduce 来将此 json 文件转换为顺序文件，然后读取 json 对象。因为我需要使用 gson 更快地执行，然后在 java 对象中转换它需要时间。我搜索了一下，发现 JAQL 可以做同样的事情，但我没有得到任何 Java MR 代码来做这件事。我什至没有找到 JAQL 的 maven jars。我无法在我的服务器上明确设置它。有没有办法使用Java代码来实现它？

score 1 · Accepted Answer

我会提供这个项目的Tika
描述：Apache Tika 与 Jaql 集成，使用 MapReduce for Hadoop

该项目有助于克服使用 Jaql 在 Hadoop 中处理多个小文件的低效率问题。此外，它允许使用 Apache Tika 处理和分析 Hadoop 中的二进制文档，方法是将其集成到 Jaql 中，从而生成 MapReduce 作业。请检查样品

java - 将 Json 转换为 hadoop 的顺序文件

1 回答 1

Related

Reference