嗨,我想要一个语音识别 api 或 sdk 来识别用户所说的语音并给出它的文本形式。
详细说明如下:
在我的应用程序中,我需要播放已经存在的音频文件和文本。当音频开始播放时,应该突出显示所说的单词(来自音频文件)。
因此,如果我能够从 api 或 sdk 中获取单词,则可以突出显示它。
除了我用谷歌搜索了很多 api 并且我遇到了ceedvocalsdk但它不能免费试用。
如果有人可以提供除此适合我的要求或 api 或 sdk 的任何想法,我将非常感激。
嗨,我想要一个语音识别 api 或 sdk 来识别用户所说的语音并给出它的文本形式。
详细说明如下:
在我的应用程序中,我需要播放已经存在的音频文件和文本。当音频开始播放时,应该突出显示所说的单词(来自音频文件)。
因此,如果我能够从 api 或 sdk 中获取单词,则可以突出显示它。
除了我用谷歌搜索了很多 api 并且我遇到了ceedvocalsdk但它不能免费试用。
如果有人可以提供除此适合我的要求或 api 或 sdk 的任何想法,我将非常感激。
你可以看一下https://github.com/KingOfBrian/VocalKit,但我自己没有尝试过。
您也可以尝试 Nexiwave.com。
我认为您正在寻找的功能是我们可以时间戳: http: //nexiwave.com/index.php/applications/for-transcription-companies
它基本上需要音频和文本,然后我们在每个句子和单词上加上时间戳。
本