可以使用 Google 的语音识别 API 来获取音频文件(WAV、MP3 等)的转录,方法是向http://www.google.com/speech-api/v2/recognize?...
示例:我在 WAV 文件中说过“一二三换五”。Google API 给了我这个:
{
u'alternative':
[
{u'transcript': u'12345'},
{u'transcript': u'1 2 3 4 5'},
{u'transcript': u'one two three four five'}
],
u'final': True
}
问题:是否有可能获得每个单词被说出的时间(以秒为单位)?
以我的例子:
['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
即“一”
这个词在时间 00:00:00.23 和 00:00:00.80 之间说,“二”这个词在时间 00:00:01.03 和 00:00:01.45 之间说(以秒为单位)。
PS:寻找支持英语以外的其他语言的API,尤其是法语。