Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Hadoop map-reduce 程序,我想将文件的一部分表示为键。我想用它来做一些分析。但是我发现这带来了性能。谁能告诉是否有任何替代使用大量文本的方法。我们可以以任何其他格式对其进行编码吗?我还发现通过将字符串转换为字节或二进制格式。但我仍然无法将它存储在整数数据类型中。我尝试将其转换为 BigInteger 但徒劳无功,因为在减少不相似的文本时也会发生冲突。除了使用 Text 数据类型之外,如何在映射器中将大块文本表示为键。
您的文件部分可以保存多长时间?彼此的键有多相似?您是否考虑过使用文本的 MD5 哈希(或类似的)作为映射器中的键?