我试图了解雪球词干算法。HW90也有类似的例子,但不是我的。该算法使用两个区域 R1 和 R2,定义如下:
R1 是元音后面的第一个非元音之后的区域,如果没有这样的非元音,R1 是单词末尾的空区域。
R2 是 R1 中元音之后的第一个非元音之后的区域,或者如果没有这样的非元音,则为单词末尾的空区域。
我不明白,“单词末尾的空区域”是什么。有人可以给我一些例子吗?
我试图了解雪球词干算法。HW90也有类似的例子,但不是我的。该算法使用两个区域 R1 和 R2,定义如下:
R1 是元音后面的第一个非元音之后的区域,如果没有这样的非元音,R1 是单词末尾的空区域。
R2 是 R1 中元音之后的第一个非元音之后的区域,或者如果没有这样的非元音,则为单词末尾的空区域。
我不明白,“单词末尾的空区域”是什么。有人可以给我一些例子吗?
空区域表示空区域,没有字母。您错过了文档页面中的示例:
下面,R1 和 R2 显示了一些英语单词,
b e a u t i f u l |<------------->| R1 |<----->| R2
字母 t 是美中元音之后的第一个非元音,所以 R1 是 iful。在 iful 中,字母 f 是元音之后的第一个非元音,所以 R2 是 ul。
b e a u t y |<->| R1 ->|<- R2
在美中,最后一个字母 y 被归类为元音。同样,字母 t 是元音之后的第一个非元音,因此 R1 只是最后一个字母 y。R1 不包含非元音,因此 R2 是单词末尾的空区域。
b e a u ->|<- R1 ->|<- R2