我一直想知道存在多少不同的搜索技术,用于搜索文本、搜索图像甚至是视频。
但是,我从未遇到过在音频文件中搜索内容的解决方案。
例如:假设我有大约 200 个播客以 mp3、wav 和 ogg 文件的形式下载到我的 PC 上。它们都被统称为 podcast1.mp3、podcast2.mp3 等。因此,如果不实际听到它们,就不可能知道内容是什么。可以这么说,我有兴趣找出播客谈论“游戏编程”的内容。我希望结果显示为:
- Podcast1.mp3 - 时间索引处的 3 个结果 - 0:16:21、0:43:45、1:12:31
- Podcast21.ogg - 时间索引处的 1 个结果 - 0:12:01
所以我的问题:
- 如何解决这个问题?
- 是否有合适的算法来做这样的事情?
我脑海中浮现的一个想法是,可以使用“语音到文本”软件来获取每个音频文件的成绩单以及时间索引,然后解析成绩单以获得输出。
我认为这是我的爱好项目之一。谢谢!