这就是我想要做的。现在我有一些像这样的文本文件:
<page>
<url>xxx.example.com</url>
<title>xxx</title>
<content>abcdef</content>
</page>
<page>
<url>yyy.example.com</url>
<title>yyy</title>
<content>abcdef</content>
</page>
...
我想读取映射器中拆分的文件并将它们转换为键值对,其中每个值都是一个<page
> 标记中的内容。
我的问题是关于钥匙。我可以使用 url 作为键,因为它们是全局唯一的。但是,由于我的工作背景,我想为每个键值对生成一个全局唯一编号作为键。我知道这在某种程度上违背了 Hadoop 的水平可扩展性。但是有什么解决办法吗?