我将Dumbo用于一些 Hadoop Streaming 作业。我有一堆 JSON 字典,每个字典都包含一篇文章(多行文本)和一些元数据。我知道 Hadoop 在提供大文件时表现最好,所以我想将所有 JSON 字典合并到一个文件中。
问题是我不知道如何让 Hadoop 将每个字典/文章作为单独的值读取,而不是在换行符上拆分。如何告诉 Hadoop 使用自定义记录分隔符?或者,也许我可以将所有 JSON 字典放入一个列表数据结构中并让 Hadoop 读取它?
或者也许对字符串进行编码(base64?)会删除所有新行并且普通的“阅读器”能够处理它?