回来征求你的意见。我编写了一个 perl 脚本,该脚本将特定数字的命中次数计入用户定义的 bin 中。例如,这是我的数据文件:
12
14
15
20
21
我想知道我在以下范围内有多少点击:
1-19
20-29
30-39
所以结果就像
1-19 3
20-29 2
30-39 0
我做了这样的事情,首先将我的数据保存到哈希(datahash)中,然后将我的范围保存到另一个哈希(rangehash)中,然后基本上遍历datahash中的所有数据点并检查值是否在范围内范围哈希。
问题在于,对于 datahash 中的每个数据点,我循环遍历所有 rangehash 值并在找到数据点所在的范围后退出。这对少数数据点很有用,但现在我的文件至少有 200 万个数据点和 50,000 个范围,所以循环遍历所有这些只需要很长时间。
我想知道是否有人会有更好的解决方案,而不仅仅是遍历整个事情。其他语言的建议很受欢迎!!!
最好的,
萨克蒂