4

我正在使用以下代码将文件添加到分布式缓存:

Configuration conf2 = new Configuration();      
job = new Job(conf2);
job.setJobName("Join with Cache");
DistributedCache.addCacheFile(new URI("hdfs://server:port/FilePath/part-r-00000"), conf2);

然后我将文件读入映射器:

protected void setup(Context context)throws IOException,InterruptedException{
Configuration conf = context.getConfiguration();

URI[] cacheFile = DistributedCache.getCacheFiles(conf);
FSDataInputStream in = FileSystem.get(conf).open(new Path(cacheFile[0].getPath()));
BufferedReader joinReader = new BufferedReader(new InputStreamReader(in));

String line;
        try {
              while ((line = joinReader.readLine()) != null) {
              s = line.toString().split("\t");
                  do stuff to s
                } finally {
                   joinReader.close();
                }

问题是我只读了一行,而不是我放入缓存的文件。而是:cm9vdA==,或 base64 中的根。

有没有其他人遇到过这个问题,或者看到我如何错误地使用分布式缓存?我正在使用完全分布式的 Hadoop 0.20.2。

4

1 回答 1

14

作业配置中的常见错误:

Configuration conf2 = new Configuration();      
job = new Job(conf2);
job.setJobName("Join with Cache");
DistributedCache.addCacheFile(new URI("hdfs://server:port/FilePath/part-r-00000"), conf2);

创建 Job 对象后,您需要将 Configuration 对象拉回,因为 Job 会对其进行复制,并且在创建作业后配置 conf2 中的值不会对作业本身产生影响。试试这个:

job = new Job(new Configuration());
Configuration conf2 = job.getConfiguration();
job.setJobName("Join with Cache");
DistributedCache.addCacheFile(new URI("hdfs://server:port/FilePath/part-r-00000"), conf2);

您还应该检查分布式缓存中的文件数量,可能不止一个,并且您正在打开一个随机文件,该文件为您提供了您所看到的值。

我建议您使用符号链接,这将使文件在本地工作目录中可用,并且具有已知名称:

DistributedCache.createSymlink(conf2);
DistributedCache.addCacheFile(new URI("hdfs://server:port/FilePath/part-r-00000#myfile"), conf2);

// then in your mapper setup:
BufferedReader joinReader = new BufferedReader(new FileInputStream("myfile"));
于 2012-10-04T00:09:29.600 回答