是否有针对程序员为 TMS320C64x 编写 DSP 加速应用程序的快速入门指南?
我有一个带有自定义算法的程序(不是 fft 或普通过滤),我想使用多 DSP 协处理器来加速它。那么,我应该如何修改源以将计算从主 CPU 转移到 DSP?运行 DSP 的代码有哪些限制?
我对CUDA有一些经验。在 CUDA 中,我应该将每个功能标记为主机、设备或设备(内核)的入口点。还有一些功能可以启动内核以及向/从 GPU 上传/下载数据。CUDA 参考手册中描述的设备代码也有一些限制。我希望,有一个类似的接口和 DSP 的文档。