// https://devblogs.nvidia.com/parallelforall/optimizing-recurrent-neural-networks-cudnn-5/
// The last optimization from the above post. This is a sorting based implementation.
// I can't think of anything more elegant that a state machine at the moment
let wavefront_order =
[|
for x=0 to 49 do
for y=0 to 9 do
for z=0 to 9 do
yield (x,y,z)
|]
|> Array.sortBy (fun (x,y,z) -> x+y+z)
事实上,在不按与原点的距离对其进行排序的情况下运行循环神经网络是可行的,但远没有那么有效。使用多个流,如果我不按波前顺序启动内核,Cuda 调度程序会阻塞。
我需要上面的 NN,或者 F# 中的示例纯粹是为了上下文。
我知道如何处理二维,但对于 3D 和更多,我所想的只是有点 hacky。我想知道是否有一些优雅的方式来进行波前迭代,类似于上面针对任意维度长度和维度数量的基于排序的方法?