0

我正在考虑创建一个应用程序。

以下是描述: 1. 人们将之前录制的对话上传到服务器。2. 来自服务器的应用程序将检测该声音的音高、速度、重点、发音等,并创建个人组合。3. 如果您呼叫服务器,则服务器应用程序将以该人(其语音服务器在步骤 2 中检测到的语音服务器)的确切语音与您交谈。

请分享链接、资源、pdf 演示文稿,无论您觉得对这个项目有用......

主要是我被困在第 2 步。我不清楚如何分解声音并分析它并获取速度、音高等信息。是否有任何现有的 API 可用于语音部分?

4

1 回答 1

0

我能够找到这个:

您也可以查看这个 SO 问题:

于 2011-08-30T17:47:12.990 回答