0

我正在开发一个应用程序,供那些陷入多余会议的人使用,他们需要知道什么时候有人问他们问题。

我的计划是:

  1. 将会议的音频(通常来自我的扬声器)流式传输到语音到文本程序中
  2. 将其流式传输到可以监视我的名字和/或提高语调的问题中
  3. 当有人问我问题时,让程序“叮”。然后我可以快速阅读文本并回答。

困难的部分是步骤(1)。我发现的所有语音到文本程序都接受音频文件作为输入,并且不能只是从任何通道流向扬声器/耳机。另一方面,我发现的辅助程序接管了键盘输入。理想情况下,用户将能够通过在会议期间输入其他应用程序来完成富有成效的工作,这样这种解决方案就行不通了。

因此,我正在寻找可以在 OS X 上使用的东西,它可以处理步骤(1)甚至更好地为我完成上述大部分步骤。

我已经对解决方案进行了研究,但找不到步骤(1)的任何内容。我将其他步骤包括在内,因为对于整个程序可能有一个我不知道的更具创造性的解决方案(例如其他一些不用于听写的辅助技术)。

4

2 回答 2

1

1)我使用LoopBack进行应用间音频路由,本质上是一个虚拟混音器,将音频从一个应用程序传输到另一个应用程序。它显示为音频输入设备,还允许监控 - 因此您可以收听以及流式传输到另一个应用程序。

2和3)不是我的专业领域,但我可能会调查任何谷歌API(如尼古拉所说)来开始我的研究。

于 2017-01-05T12:30:29.497 回答
1

您可以使用许多 API,例如来自 Google 的流 API,但它并不是完全免费的。

如果您容忍较低的准确性,您可以使用CMUSphinx等开源软件。

问题还在于如何从 voip 软件中获取音频流,你必须自己破解它。或者您必须重新录制扬声器上播放的内容,这并不总是一个好主意。

于 2017-01-04T20:31:17.943 回答