我有一个 1 gb 的 zip 文件,其中包含大约 10 万个小文件。使用 ZipInputStream 导入 zip 文件是否足够,或者我仍然会面临“Hadoop 小文件问题”。
还请提及解决此问题的任何更好的方法。基本上我想解析每个小文件的内容并对其进行一些处理。
谢谢
我有一个 1 gb 的 zip 文件,其中包含大约 10 万个小文件。使用 ZipInputStream 导入 zip 文件是否足够,或者我仍然会面临“Hadoop 小文件问题”。
还请提及解决此问题的任何更好的方法。基本上我想解析每个小文件的内容并对其进行一些处理。
谢谢