我正在尝试建立一个很难发音的英语单词集合。
我想知道是否有某种算法或理论可以用来显示一个单词的发音难度。
这在您看来是可以计算的吗?
由于这似乎是一件非常主观的事情,让我让它更客观一些,让我们说出最难通过文本到语音技术发音的单词。
我正在尝试建立一个很难发音的英语单词集合。
我想知道是否有某种算法或理论可以用来显示一个单词的发音难度。
这在您看来是可以计算的吗?
由于这似乎是一件非常主观的事情,让我让它更客观一些,让我们说出最难通过文本到语音技术发音的单词。
一种方法是使用每个单词的两个版本构建一个列表。一个是正确的拼写,另一个是使用最简单的拼音拼写的单词。对这两个词应用距离函数(如 Levenshtein distance http://en.wikipedia.org/wiki/Levenshtein_distance)。两个词之间的距离越大,这个词就越难发音。
大问题!在我的脑海中,您可以创建一个系统,其中包含语音字母表中的所有字母,并根据难度在每个组合之间连接权重(高度具体,因此可能需要多人测试并取平均值等),然后列出所有存储在磁盘上的英语词典中的单词并调用一个脚本,该脚本循环遍历每个条目并在维基百科上执行网络抓取以获取语音拼写并对其难度进行排名。这可以考虑单词的长度以及加入语音之间的难度,然后根据难度对列表进行排序。
这就是我会尝试做的:P
在某种程度上...
例如,语音程序使用语音系统来尝试和发音单词。
例如,“掌握”将被拆分为:
抓牢
但是,对于外来词(或不遵循此模式的词),必须保留例外列表,例如 Yacht
建议
幸运的是,发音作为一个过程取决于两个因素,其中包括
/a/,/ae/,/e/,/i/,/o/,/u/,/w/,/j/...
第一个与手机发声的机制有关,因为必须改变软膜、脸颊舌头以产生与各个音素相关的各种声音,例如鼻音等。这使得一些单词更难发音,因为所需的动作可能很多。请参阅有关语音的书籍以找到每个音素的发音位置。
算法
a weighted spanning tree with weight being the difficulty of pronouncing two consecutive phones i.e l and r or /sh/ and /s/
祝你好运。