11

ImageInputFormat在 Hadoop 中有一个从 HDFS 读取图像的类。如何在 Spark 中使用我的 InputFormat?

这是我的ImageInputFormat

public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {

    @Override
    public ImageRecordReader createRecordReader(InputSplit split, 
                  TaskAttemptContext context) throws IOException, InterruptedException {
        return new ImageRecordReader();
    }

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
}  
4

2 回答 2

14

SparkContext一个名为hadoopFile. 它接受实现接口的类org.apache.hadoop.mapred.InputFormat

它的描述说“为具有任意 InputFormat 的 Hadoop 文件获取 RDD”。

还可以查看Spark 文档

于 2014-01-09T14:15:00.407 回答
2

图像都存储在 hadoopRDD 中?

是的,将保存在 spark 中的所有内容都是 rdds

可以设置RDD的容量,当RDD满了,剩下的数据会存到磁盘吗?

Default storage level in spark is (StorageLevel.MEMORY_ONLY) ,use MEMORY_ONLY_SER, which is more space efficient. Please refer spark documentation > scala programming > RDD persistance

Will the performance be influenced if the data is too big?

As data size increases , it will effect performance too.

于 2014-01-14T11:53:35.447 回答