我正在实施可读性测试并实施了检测音节的简单算法。检测元音序列我用单词来计算它们,例如单词“shoud”包含一个元音序列,即“ou”。在计算它们之前,我要删除 -les、-e、-ed 之类的后缀(例如,单词“like”包含一个音节,但包含两个元音序列,所以这种方法有效)。
但是......考虑这些单词/序列:
- X 射线(它包含两个音节)
- 我是(一个音节,也许我可以删除文本中的所有撇号?)
- 进去'
- 我本来
- n'(例如 Pork n' Beans)
- 3rd(如何治疗?)
- 12345
特殊字符怎么办?全部删除?大多数单词都可以,但不能使用“n'”和“x-ray”。以及如何对待密码。
这些是单词的特殊情况,但我很高兴看到这个主题的一些经验或想法。