我正在研究安装在 Windows Server 上的 Hadoop 平台(由 HortonWorks 开发),并在 C# 中编写 Map/Reduce 文件。
我有一个包含 100k xml 文件的输入文件夹。我想读取每个 xml 文件并将每个标签写在一行中。请按照以下示例进行操作。
输入:
<Person>
<a>1</a>
<b>2</b>
<c>3</c>
</Person>
输出 1,2,3 .... ...
能否请您提供有关我应该如何读取数据的意见,截至目前。Mapper 提供了每个文件的单独文件,其中难以解析单独的标签。