-1

我需要一些库或 API 来映射音频和手动转录的文本,以便我可以获得每个单词的时间戳。尝试使用 GCP 转录并获取时间戳,但错误率太大,增加了手动工作。音频文件是医生和病人之间的对话,所以病人的声音不是很听得见。我想这就是为什么 GCP 无法正确转录它的原因。

理想情况下,我想减少手动工作并获得准确的结果。

4

1 回答 1

0

GCP 的 Speech to Text API 中有几个工具可以用来改进结果:

  • 使用他们的增强模型。有一个针对电话进行了优化的电话可以适合这种情况,因为它是两个人的对话。
  • 您可以使用说话者分类来检测谁在哪个时刻说话。有了这些信息,您可以预处理您的音频文件并增加患者说话部分的音量。
  • 查看本指南以获取单词时间戳。
于 2020-01-30T13:14:35.070 回答