1

处理 1TB 文件哪个更快:单台机器还是 5 台联网机器?(“处理”是指在该 1TB 文件中查找出现次数最多的单个 UTF-16 字符)。数据传输速率为 1Gbit/sec,整个 1TB 文件驻留在 1 台计算机中,每台计算机都有一个四核 CPU。

下面是我尝试使用 longs 数组(数组大小为 2^16)来跟踪字符数的问题。这应该适合单台机器的内存,因为 2^16 x 2^3(长的大小)= 2^19 = 0.5MB。任何帮助(链接、评论、建议)将不胜感激。我使用了 Jeff Dean 引用的延迟时间,并尽我所能使用我所知道的最佳近似值。最后的答案是:

单机:5.8 小时(由于从磁盘读取速度慢)
5 台联网机器:7.64 小时(由于从磁盘和网络读取)

1) Single Machine
 a) Time to Read File from Disk --> 5.8 hrs
   -If it takes 20ms to read 1MB seq from disk, 
    then to read 1TB from disk takes: 
    20ms/1MB x 1024MB/GB x 1024GB/TB = 20,972 secs 
    = 350 mins = 5.8 hrs 

 b) Time needed to fill array w/complete count data 
    --> 0 sec since it is computed while doing step 1a
    -At 0.5 MB, the count array fits into L2 cache. 
     Since L2 cache takes only 7 ns to access, 
     the CPU can read & write to the count array 
     while waiting for the disk read. 
     Time: 0 sec since it is computed while doing step 1a

 c) Iterate thru entire array to find max count --> 0.00625ms
   -Since it takes 0.0125ms to read & write 1MB from 
    L2 cache and array size is 0.5MB, then the time 
    to iterate through the array is: 
    0.0125ms/MB x 0.5MB = 0.00625ms  

 d) Total Time 
    Total=a+b+c=~5.8 hrs (due to slowness of reading from disk)

2) 5 Networked Machines   
   a) Time to transfr 1TB over 1Gbit/s --> 6.48 hrs
      1TB x 1024GB/TB x 8bits/B x 1s/Gbit 
      = 8,192s = 137m = 2.3hr
      But since the original machine keeps a fifth of the data, it
      only needs to send (4/5)ths of data, so the time required is: 
      2.3 hr x 4/5 = 1.84 hrs
      *But to send the data, the data needs to be read, which
       is (4/5)(answer 1a) = (4/5)(5.8 hrs) = 4.64 hrs
       So total time = 1.84hrs + 4.64 hrs = 6.48 hrs

   b) Time to fill array w/count data from original machine --> 1.16 hrs
      -The original machine (that had the 1TB file) still needs to
       read the remainder of the data in order to fill the array with
       count data. So this requires (1/5)(answer 1a)=1.16 hrs.  
       The CPU time to read & write to the array is negligible, as 
       shown in 1b.      

   c) Time to fill other machine's array w/counts --> not counted   
      -As the file is being transferred, the count array can be 
       computed. This time is not counted. 

   d) Time required to receive 4 arrays --> (2^-6)s
      -Each count array is 0.5MB
       0.5MB x 4 arrays x 8bits/B x 1s/Gbit 
       = 2^20B/2 x 2^2 x 2^3 bits/B x 1s/2^30bits 
       = 2^25/2^31s = (2^-6)s 

   d) Time to merge arrays  
      --> 0 sec(since it can be merge while receiving)

   e) Total time 
      Total=a+b+c+d+e =~ a+b =~ 6.48 hrs + 1.16 hrs = 7.64 hrs 
4

2 回答 2

1

这不是答案,而只是更长的评论。您错误地计算了频率阵列的大小。1 TiB 文件包含 550 个 Gsym,因为没有说明它们的预期频率,所以您需要一个至少 64 位整数(即 8 个字节/元素)的计数数组。这个频率数组的总大小将是2^16 * 8 = 2^19字节或只有 512 KiB,而不是您计算错误的 4 GiB。通过 1 Gbps 链路发送此数据仅需 ≈4.3 毫秒(如果您使用 TCP/IP over Ethernet 且 MTU 为 1500 字节/更少的巨型帧,但它们不受广泛支持/),则协议标头大约需要 3%。此数组大小也完全适合 CPU 缓存。

您严重高估了处理数据和提取频率所需的时间,并且您还忽略了它可以与磁盘读取重叠的事实。事实上,更新驻留在 CPU 缓存中的频率数组非常快,计算时间可以忽略不计,因为大部分时间都会与慢速磁盘读取重叠。但是您低估了读取数据所需的时间。即使使用多核 CPU,您仍然只有一条通往硬盘驱动器的路径,因此您仍然需要完整的 5.8 小时来读取单个机箱中的数据。

事实上,这是一种数据处理的示例,它既不能从并行网络处理中受益,也不能从拥有多个 CPU 内核中受益。这就是为什么超级计算机和其他快速网络处理系统使用分布式并行文件存储,可以提供许多 GB/s 的聚合读/写速度。

于 2012-07-14T20:39:14.210 回答
1

如果你的源机器是 5 的一部分,你只需要发送 0.8tb。

将数据发送到其他机器甚至可能没有意义。考虑一下:

为了让源机器发送数据,它必须首先命中磁盘,以便在通过网络发送数据之前将数据读入主存。如果数据已经在主内存中并且没有被处理,那么你就是在浪费这个机会。

因此,假设加载到 CPU 缓存比从磁盘加载到内存或通过网络传输数据便宜得多(这是真的,除非您正在处理外来硬件),那么您最好只在源计算机上执行此操作,并且拆分任务的唯一地方是如果“文件”是以分布式方式创建/填充的。

所以你应该只计算一个 1Tb 文件的磁盘读取时间,L1/L2 缓存和 CPU 操作的开销很小。缓存访问模式是最佳的,因为它是顺序的,因此您只对每条数据缓存一次未命中。

这里的要点是磁盘是主要的瓶颈,它掩盖了其他一切。

于 2012-07-17T02:20:23.757 回答