android - 为 Android TTS 引擎指定发音的最佳实践？

Question

总的来说，我对 Android 的默认文本转语音引擎（即 com.svox.pico）印象深刻。正如预期的那样，它会误读一些单词（就像我一样），因此偶尔需要一些发音指导。因此，我想知道以语音方式拼出 pico TTS 引擎错误发音的那些单词的最佳实践。

例如，恰恰拉卡鸟的正确发音是 CHAH-chah-LAH-kah。以下是 TTS 引擎产生的内容：

mTts.speak("Chachalaca", TextToSpeech.QUEUE_ADD, null); // output: chuh-KAL-uh-KUH
mTts.speak("CHAH-chah-LAH-kah", TextToSpeech.QUEUE_ADD, null); // output: CHAH-chah-EL-AY-AYCH-dash-kuh
mTts.speak("CHAHchahLAHkah", TextToSpeech.QUEUE_ADD, null); // output: CHA-chah-LAH-ka
mTts.speak("CHAH chah LOCKah", TextToSpeech.QUEUE_ADD, null); // output: CHAH-chah-LAH-kah

这是我的问题。

是否有 Android TTS 引擎识别的标准拼音？

如果没有，是否有一些用于制作自定义发音拼写的一般规则，使拼写在未来的 TTS 引擎/版本中更有可能是正确的？

Android TTS 引擎似乎忽略了文本大小写。指定重点的最佳方式是什么？

顺便说一句，这是 TTS 引擎写入 logcat 的内容：

V/TtsService(294): TTS 处理: CHAH chah LOCKah
V/TtsService(294): TtsService.setLanguage(eng, USA, )
I/SVOX Pico Engine(294): 语言已经加载 (en-US == en-US )
I/SynthProxy(294)：将语速设置为 100
I/SynthProxy(294)：将音调设置为 100

[更新]

我尝试将 XML 文档传递给 TextToSpeech.speak()，如下所示：

            String text = "<?xml version=\"1.0\"?>" +
                "<speak version=\"1.0\" xmlns=\"http://www.w3.org/2001/10/synthesis\" " +
                    "xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\" " +
                    "xsi:schemaLocation=\"http://www.w3.org/2001/10/synthesis " +
                        "http://www.w3.org/TR/speech-synthesis/synthesis.xsd\" " +
                    "xml:lang=\"en-US\">" +

                    "That is a big car! " +
                    "That <emphasis>is</emphasis> a big car! " +
                    "That is a <emphasis>big</emphasis> car! " +
                    "That is a huge bank account! " +
                    "That <emphasis level=\"strong\">is</emphasis> a huge bank account! " +
                    "That is a <emphasis level=\"strong\">huge</emphasis> bank account!" +
                "</speak>";
            mTts.speak(text, TextToSpeech.QUEUE_ADD, null);

正如Android Eve 所建议的那样，TTS 引擎只读取XML 正文（即关于大型汽车和庞大银行账户的评论）。我没有意识到 TTS 引擎能够解析 XML 文档。但是，我在 TTS 输出中没有听到任何强调。

[更新 2]

我在这里将问题简化为 Android TTS 是否支持语音合成标记语言。

score 9 · Accepted Answer

JW 在tts-for-android小组中回答了我的问题：

嗨，格雷格，

Pico 引擎识别带有 XSAMPA 字母的标签。

没有简单的规则可以从正字法中导出某个发音，但您可以使用直观的拼写和反复试验。大写和连字符会带来比解决问题更多的问题。使用不同的拼写和引入额外的单词边界（空格）是可行的。

强调标签和感叹号不会改变合成结果。请改用、和命令。

使用 SSML 音素标记指定发音的正确语法的一些示例在TextToSpeech 的这些测试中。

即使使用这些简单的测试 SSML 文档，也会向 logcat 发布有关 SSML 文档格式不正确的警告消息。所以我向Android 问题跟踪器打开了一个关于这些看似不正确的 logcat 消息的问题。

为 SVOX pico 指定 x-SAMPA 序列的语法是

String text = "<speak xml:lang=\"en-US\"> <phoneme alphabet=\"xsampa\" ph=\"d_ZIn\"/>.</speak>";
mTts.speak(text, TextToSpeech.QUEUE_ADD, null);

虽然更多示例会有所帮助，但 x-SAMPA 的一个很好的参考是http://en.wikipedia.org/wiki/Xsampa 如果我编译了几十个示例，我会将它们发布到该 Wikipedia 页面。

score 1 · Accepted Answer

所有 3 个问题的一个答案：查看 SSML 规范：http ://www.w3.org/TR/speech-synthesis/

例如，要指定强调，您使用强调元素，例如

<?xml version="1.0"?>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
                   http://www.w3.org/TR/speech-synthesis/synthesis.xsd"
         xml:lang="en-US">
  That is a <emphasis> big </emphasis> car!
  That is a <emphasis level="strong"> huge </emphasis>
  bank account!
</speak>

android - 为 Android TTS 引擎指定发音的最佳实践？

2 回答 2

Related

Reference