我正在开发一个唤醒词应用程序。我在 coursera 上完成了 Andrew NG 的深度学习专业化课程,并且有一个关于它的作业。因此,我尝试使用 pycharm 上的 pytorch 框架自己复制它,但是当我开始创建训练脚本时,在分配之后,我意识到训练已经完成。我最终将测试和训练文件都作为 .npy 但我不知道如何将它们传递到网络中。
问题是我不知道从哪里开始。所以我在 youtube 上查看了一个创建它但无法使他的存储库工作的人,因为似乎我(或 Windows 可能)对 beckhend 有问题:C++ 的 torchaudio 扩展不可用。
至此,2天后,我完成了想法。我只需要创建数据加载器和训练功能,但我很累。如果有人可以帮助我,或者只是给我一个学习和复制它的好方法,那就太好了,因为我以前从未使用过音频文件,而且我不能简单地用我有的 csv 注释文件创建一个数据集一列与文件路径和另一列与类标签关联,因为这不是一个直接的分类问题(只是因为在唤醒词中每个时间步都有自己的标签,而不是音频文件的标签)。
谢谢!