我正在开发一个应用程序,供那些陷入多余会议的人使用,他们需要知道什么时候有人问他们问题。
我的计划是:
- 将会议的音频(通常来自我的扬声器)流式传输到语音到文本程序中
- 将其流式传输到可以监视我的名字和/或提高语调的问题中
- 当有人问我问题时,让程序“叮”。然后我可以快速阅读文本并回答。
困难的部分是步骤(1)。我发现的所有语音到文本程序都接受音频文件作为输入,并且不能只是从任何通道流向扬声器/耳机。另一方面,我发现的辅助程序接管了键盘输入。理想情况下,用户将能够通过在会议期间输入其他应用程序来完成富有成效的工作,这样这种解决方案就行不通了。
因此,我正在寻找可以在 OS X 上使用的东西,它可以处理步骤(1),甚至更好地为我完成上述大部分步骤。
我已经对解决方案进行了研究,但找不到步骤(1)的任何内容。我将其他步骤包括在内,因为对于整个程序可能有一个我不知道的更具创造性的解决方案(例如其他一些不用于听写的辅助技术)。