speech-to-text - 如何在没有先前语音注册的情况下使用 Microsoft 语音到文本进行说话人识别（分类）？

Question

在我的应用程序中，我需要记录人与人之间的对话，并且物理工作流程中没有空间对每个人的声音进行 20 秒的采样以训练识别器，也没有要求每个人阅读预设密码进行训练. 但是，据我所知，如果不这样做，就无法获得说话者的身份。

有没有什么方法可以只记录 5 个人说话并让识别器自动将返回的文本分类为属于 5 个不同的人之一，而无需先前的培训？

（值得一提的是，IBM Watson 可以做到这一点，尽管在我的测试中它做得不是很准确。）

score 2 · Accepted Answer

如果我正确理解您的问题，那么对话转录Speaker[x]应该是您的方案的解决方案，因为如果您不事先生成用户配置文件，它将显示演讲者并为每个新演讲者进行迭代。

用户语音样本是可选的。如果没有此输入，转录将显示不同的扬声器，但显示为“扬声器 1”、“扬声器 2”等，而不是识别为预先注册的特定扬声器名称。

您可以开始使用实时对话转录快速入门。

score 0 · Accepted Answer

预览版中的 Microsoft 对话转录，现在针对麦克风阵列设备。所以输入录音应该由麦克风阵列记录。如果您的录音来自普通麦克风，则可能无法正常工作，您需要进行特殊配置。您也可以尝试批量日记化，它支持离线转录，目前对 2 个扬声器进行日记化，它很快就会支持 2+ 个扬声器，可能在本月。

2 回答 2