python - 如何为两人对话改进 GCP 的 Speech to Text API 结果

问问题 2020-01-16T16:53:01.873

207 次

-1

我需要一些库或 API 来映射音频和手动转录的文本，以便我可以获得每个单词的时间戳。尝试使用 GCP 转录并获取时间戳，但错误率太大，增加了手动工作。音频文件是医生和病人之间的对话，所以病人的声音不是很听得见。我想这就是为什么 GCP 无法正确转录它的原因。

理想情况下，我想减少手动工作并获得准确的结果。

1 回答 1

0

GCP 的 Speech to Text API 中有几个工具可以用来改进结果：

使用他们的增强模型。有一个针对电话进行了优化的电话可以适合这种情况，因为它是两个人的对话。
您可以使用说话者分类来检测谁在哪个时刻说话。有了这些信息，您可以预处理您的音频文件并增加患者说话部分的音量。
查看本指南以获取单词时间戳。

于 2020-01-30T13:14:35.070 回答