我只是想知道是否有人遇到过需要将数据从 excel 导入或读取到 Hadoop 的场景?周围有像 Flume Excel 源这样的东西吗?
顺便说一句,我知道我可以将 excel 文件转换为 csv 然后处理它。真的只是想在这里进一步探索水槽的来源。
可以将假脱机目录源配置为从 Excel 文件(或任何其他格式)中读取。如文档所述,可以使用EventDeserializer配置此源- 实现将文件解析为事件的逻辑的类。
我不认为有人已经实现了这样的反序列化器,但是使用 Apache POI 库似乎很容易。