我正在寻找一种将 ENG 中的文本(字符串)转换为 c# 中的语音(声音)的方法。有人知道可以帮助我完成这项任务的方法或一些开源库吗?
6 回答
您可以使用 .NET 库(System.Speech.Synthesis)。
根据微软:
System.Speech.Synthesis 命名空间包含允许您初始化和配置语音合成引擎、创建提示、生成语音、响应事件和修改语音特征的类。语音合成通常被称为文本到语音或 TTS。
语音合成器将文本作为输入并产生音频流作为输出。语音合成也称为文本到语音 (TTS)。
合成器必须执行大量分析和处理,以准确地将字符串转换为听起来与说出单词一样的音频流。想象这是如何工作的最简单的方法是描绘一个两部分系统的前端和后端。
文本分析
前端专门使用自然语言规则分析文本。它分析一串字符以确定单词的位置(这在英语中很容易做到,但在汉语和日语等语言中并不容易)。这个前端还计算出语法细节,如功能和词性。例如,哪些词是专有名词、数字等;句子开始和结束的地方;短语是问题还是陈述;以及陈述是过去时、现在时还是将来时。
所有这些元素对于为单词、短语和句子选择适当的发音和语调至关重要。考虑到在英语中,一个问题通常以一个上升的音高结束,或者“阅读”这个词的发音根据它的时态非常不同。显然,理解单词或短语的使用方式是将文本解释为声音的关键方面。更复杂的是,每种语言的规则略有不同。因此,正如您可以想象的那样,前端必须进行一些非常复杂的分析。
声音生成
后端有完全不同的任务。它接受前端完成的分析,并通过自己的一些重要分析,为输入文本生成适当的声音。较旧的合成器(以及如今占用空间最小的合成器)通过算法生成单独的声音,从而产生非常机械化的声音。现代合成器,例如 Windows Vista 和 Windows 7 中的合成器,使用由数小时和数小时的录音语音组成的声音片段数据库。后端的有效性取决于它在为任何给定输入选择适当的声音片段并将它们平滑地拼接在一起的能力。
可以使用
上述文字转语音功能内置于 Windows Vista 和 Windows 7 操作系统中,允许应用程序轻松使用该技术。这消除了创建自己的语音引擎的需要。您可以通过一个函数调用来调用所有这些处理。请参阅说出字符串的内容。
试试这个代码:
using System.Speech.Synthesis;
namespace ConsoleApplication5
{
class Program
{
static void Main(string[] args)
{
SpeechSynthesizer synthesizer = new SpeechSynthesizer();
synthesizer.Volume = 100; // 0...100
synthesizer.Rate = -2; // -10...10
// Synchronous
synthesizer.Speak("Hello World");
// Asynchronous
synthesizer.SpeakAsync("Hello World");
}
}
}
此功能存在于System.Speech命名空间的主类库中。特别是,查看System.Speech.Synthesis。
请注意,您可能需要添加对System.Speech.dll的引用。
SpeechSynthesizer 类提供对安装在主机上的语音合成引擎功能的访问。已安装的语音合成引擎由语音表示,例如 Microsoft Anna。SpeechSynthesizer 实例初始化为默认语音。要将 SpeechSynthesizer 实例配置为使用其他已安装的语音之一,请调用 SelectVoice 或 SelectVoiceByHints 方法。要获取有关安装了哪些声音的信息,请使用 GetInstalledVoices 方法。
与所有 MSDN 文档一样,有一些代码示例可供使用。以下来自 System.Speech.Synthesis.SpeechSynthesizer 类。
using System;
using System.Speech.Synthesis;
namespace SampleSynthesis
{
class Program
{
static void Main(string[] args)
{
// Initialize a new instance of the SpeechSynthesizer.
SpeechSynthesizer synth = new SpeechSynthesizer();
// Configure the audio output.
synth.SetOutputToDefaultAudioDevice();
// Speak a string.
synth.Speak("This example demonstrates a basic use of Speech Synthesizer");
Console.WriteLine();
Console.WriteLine("Press any key to exit...");
Console.ReadKey();
}
}
}
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using System.Speech.Synthesis; // first import this package
namespace textToSpeech
{
public partial class home : Form
{
public string s = "pran"; // storing string (pran) to s
private void home_Load(object sender, EventArgs e)
{
speech(s); // calling the function with a string argument
}
private void speech(string args) // defining the function which will accept a string parameter
{
SpeechSynthesizer synthesizer = new SpeechSynthesizer();
synthesizer.SelectVoiceByHints(VoiceGender.Male , VoiceAge.Adult); // to change VoiceGender and VoiceAge check out those links below
synthesizer.Volume = 100; // (0 - 100)
synthesizer.Rate = 0; // (-10 - 10)
// Synchronous
synthesizer.Speak("Now I'm speaking, no other function'll work");
// Asynchronous
synthesizer.SpeakAsync("Welcome" + args); // here args = pran
}
}
}
- 使用“SpeakAsync”会是更好的选择,因为当“Speak”函数正在执行/运行时,其他任何函数都不会工作,直到它完成它的工作(个人推荐)
最近 Google 发布了Google Cloud Text To Speech。
.NET客户端版本的 Google.Cloud.TextToSpeech 可以在这里找到: https ://github.com/jhabjan/Google.Cloud.TextToSpeech.V1
努盖特:Install-Package JH.Google.Cloud.TextToSpeech.V1
以下是如何使用客户端的简短示例:
GoogleCredential credentials =
GoogleCredential.FromFile(Path.Combine(Program.AppPath, "jhabjan-test-47a56894d458.json"));
TextToSpeechClient client = TextToSpeechClient.Create(credentials);
SynthesizeSpeechResponse response = client.SynthesizeSpeech(
new SynthesisInput()
{
Text = "Google Cloud Text-to-Speech enables developers to synthesize natural-sounding speech with 32 voices"
},
new VoiceSelectionParams()
{
LanguageCode = "en-US",
Name = "en-US-Wavenet-C"
},
new AudioConfig()
{
AudioEncoding = AudioEncoding.Mp3
}
);
string speechFile = Path.Combine(Directory.GetCurrentDirectory(), "sample.mp3");
File.WriteAllBytes(speechFile, response.AudioContent);
您可以在System.Speech.Synthesis命名空间的帮助下做到这一点。为此,您需要先添加对System.speech.dll的引用。
试试这个:
using System.Speech.Synthesis;
namespace TextToSpeech
{
public partial class Form1 : Form
{
SpeechSynthesizer speak;
public Form1()
{
InitializeComponent();
speak = new SpeechSynthesizer();
}
private void button1_Click(object sender, EventArgs e)
{
string text="Speak this";
speak.SpeakAsync(text);
}
}
}
您可以使用System.Speech库来做到这一点。看看这个例子