我正在使用需要构建直方图的大型数据集。我觉得我只是遍历整个列表并在第二个数组中标记频率的方法是一种缓慢的方法。关于如何加快进程的任何建议?
问问题
546 次
1 回答
2
鉴于直方图是包含每个 bin 中所有项目计数的图形,如果不访问所有项目,您将无法制作一个。
但是,您可以:
在收集数据时创建直方图。然后它不需要时间来生成。
将数据分解为 N 个部分,并并行处理每个部分。当每个部分都完成计数后,只需将每个 bin 的结果相加即可。(您也可以将其与#1 结合使用)
对数据进行采样。理论上,查看一小部分数据,您应该能够估计其余部分。 数学。
于 2013-08-03T23:00:20.860 回答