假设我有一个包含以下数据的纯文本文件:
DataSetOne <br />
content <br />
content <br />
content <br />
DataSetTwo <br />
content <br />
content <br />
content <br />
content <br />
...等等...
我想要的是:计算每个数据集中有多少内容。例如结果应该是
<DataSetOne, 3>, <DataSetTwo, 4>
我是hadoop的初学者,我想知道是否有办法将一块数据作为一个整体映射到一个节点。例如,将所有 DataSetOne 设置为节点 1,将所有 DataSetTwo 设置为节点 2。
有谁可以给我一个想法如何存档?