我需要一些库或 API 来映射音频和手动转录的文本,以便我可以获得每个单词的时间戳。尝试使用 GCP 转录并获取时间戳,但错误率太大,增加了手动工作。音频文件是医生和病人之间的对话,所以病人的声音不是很听得见。我想这就是为什么 GCP 无法正确转录它的原因。
理想情况下,我想减少手动工作并获得准确的结果。
我需要一些库或 API 来映射音频和手动转录的文本,以便我可以获得每个单词的时间戳。尝试使用 GCP 转录并获取时间戳,但错误率太大,增加了手动工作。音频文件是医生和病人之间的对话,所以病人的声音不是很听得见。我想这就是为什么 GCP 无法正确转录它的原因。
理想情况下,我想减少手动工作并获得准确的结果。