我目前正在启动一个名为“使用 Hadoop 进行时间序列挖掘算法的云计算”的项目。我拥有的数据是大小超过 TB 的 hdf 文件。在 hadoop 中,我知道我们应该将文本文件作为输入以进行进一步处理(map-reduce 任务)。所以我有一个选择,我将所有 .hdf 文件转换为文本文件,这将花费大量时间。
或者我找到了一种如何在 map reduce 程序中使用原始 hdf 文件的方法。到目前为止,我还没有成功找到任何读取 hdf 文件并从中提取数据的 java 代码。如果有人对如何使用 hdf 文件有更好的了解,我将非常感谢这样的帮助。
谢谢阿尤什