Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我的数据输入文件的长度都相同,但是其中的记录可能跨越两个文件(从第一个文件的末尾开始,到第二个文件的开头结束)。
是否可以创建一个允许我跨越这两个文件的输入拆分?
创建一组全新的文件以便记录不跨越多个文件是否更好?
我肯定会确保您的记录不会跨越一个以上的文件:理论上,您可以编写自己的输入格式来处理这个问题,但是开销可能像您一样相当大 - 必须确保您知道哪个文件属于一起 - 接管 jobtracker 和名称节点为您履行的部分责任。
您应该可以自由地告诉 jobtracker/name 节点输入在哪里,并且为了真正并行处理,您不希望收回一些控制:恕我直言,它会部分破坏使用的对象好在第一位。