因此,在发布此之前,我已经查看了大量文章和论坛,但我一直在阅读相互矛盾的答案。首先,操作系统不是问题,我可以使用 Windows 或 Unix,只要最适合我的问题。我有大量数据需要用于只读目的(不知道为什么这很重要,但是,如果确实如此,我将不得不经历的数据结构是一个数组数组其值也是数组的哈希数组)。我本质上是将“查询”与大量不同的“句子”进行比较并计算它们的相对相似性。从这些数量(几百万)中,我想拿走前 x% 并用它们做点什么。我需要并行化这个过程。那里' 这对我来说不是减少空间的好方法——我需要对所有内容进行比较以获得好的结果,而且使用某种线程/分叉会花费太长时间。同样,我看到了许多相互矛盾的答案,不知道该做什么。
任何帮助,将不胜感激。提前致谢。
编辑:我认为内存使用量不是问题,但我不知道(8 GB RAM)