我需要将类型数组存储在 RDD 中。为此,我使用 Hadoop 中的ArrayWritable类:
static public class Record {
public long id;
public FloatArrayWritable dataArray;
}
它有效,但我想确保在不需要时不会序列化对象。我想尽可能地留在记忆中。Spark 和 Flink 声称将数据保存在内存中。ArrayWritable 类是这种情况吗?这是存储数组的有效方法吗?谢谢!
编辑:来自@mattinbits 的回答,对于Spark,有效的方法是使用Java 数组或ArrayList(用于动态调整大小)