我目前正在将一个相当哈利匹配的追踪算法(这是更大的图像处理算法的一部分)迁移到 OpenCL。
该算法使用一些内部矩阵和向量进行处理。其中一半的大小相当小(少于 10 列),但另一半可能会变得相当大,具体取决于输入矩阵(n * n、2n * n 等)。
所有内部矩阵的定义取决于输入矩阵。
鉴于标准中没有本地分配功能,我通过将内存块从全局内存映射到工作项的私有内存来解决内存问题。我确保在上下文设置期间块不重叠,以便在运行时确保数据一致性。
我觉得这种方法不合适。感觉更像是一个黑客。
大家有遇到过这种情况吗?你的解决方案是什么?