我在 CSV 文件中有我的数据。我想读取 HDFS 中的 CSV 文件。
谁能帮我写代码??
我是hadoop的新手。提前致谢。
为此所需的类是FileSystem、FSDataInputStream和Path。客户端应该是这样的:
public static void main(String[] args) throws IOException {
// TODO Auto-generated method stub
Configuration conf = new Configuration();
conf.addResource(new Path("/hadoop/projects/hadoop-1.0.4/conf/core-site.xml"));
conf.addResource(new Path("/hadoop/projects/hadoop-1.0.4/conf/hdfs-site.xml"));
FileSystem fs = FileSystem.get(conf);
FSDataInputStream inputStream = fs.open(new Path("/path/to/input/file"));
System.out.println(inputStream.readChar());
}
FSDataInputStream 有几个read
方法。选择适合您需求的那一款。
如果是MR,那就更简单了:
public static class YourMapper extends
Mapper<LongWritable, Text, Your_Wish, Your_Wish> {
public void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
//Framework does the reading for you...
String line = value.toString(); //line contains one line of your csv file.
//do your processing here
....................
....................
context.write(Your_Wish, Your_Wish);
}
}
}
如果要使用 mapreduce,可以使用 TextInputFormat 逐行读取并解析映射器 map 函数中的每一行。
其他选项是开发(或找到开发的)CSV 输入格式以从文件中读取数据。
这里有一个旧教程http://hadoop.apache.org/docs/r0.18.3/mapred_tutorial.html但新版本中的逻辑相同
如果您使用单个进程从文件中读取数据,则它与从任何其他文件系统中读取文件相同。这里有一个很好的例子https://sites.google.com/site/hadoopandhive/home/hadoop-how-to-read-a-file-from-hdfs
高温高压