我想以编程方式检查字符串是否可以发音或需要拼写。
例如,internationalization
可以读出,但i18n
不能,也不可以hhdirgxzf
。
我可以想到一些简单的启发式方法,例如检查字符串是否包含非字母字符,但我希望有一种更健壮和科学的方法来做到这一点。是否有算法方法可以根据发音的难易程度对字符串进行评分?
相关:有没有办法对单词的发音难度进行排名?,但是我没有列表,也无法预先计算。
根据评论更新。
- 由于我是说英语的人,我对英语很感兴趣,但我可以想象一种基于声音和说话方式而不是特定语言特征的算法。
- 发音是指可以自然读出字符串,可以发音
hhdirgxzf
但听起来不是一个自然语言单词,它需要被分解。 - 我想到的一个特定用例是向我发送字符串的地方,我想使用基本的文本到语音系统来大声朗读它们。我想确定让 TTS 系统尝试发音的字符串中的哪些标记,以及让它拼出的标记,如果不自信,就会在拼写方面犯错。