我需要分析一个句子/短语以及说出每个单词所需的输出时间。例如,在句子中
How can mirrors be real if our eyes aren't?
我需要这个
Word Time
--------- -------
How 101ms
can 95ms
mirrors 180ms
be 70ms
real 120ms
if 80ms
our 99ms
eyes 101ms
aren't? 180ms
(我做了这个。这些不是实际的话语时间)
这样做的一种方法是假设词长与话语时间成正比,但这并不总是正确的(“队列”和“Q”具有相同的话语时间,尽管它们的词长不同)
标点符号的存在也必须考虑在内。
奖励:识别情绪:)
谁能指出我这样做的算法/论文?有没有办法从现有的文本转语音代码中破解这个?非常感谢 Java 代码建议!