2

我试图了解雪球词干算法。HW90也有类似的例子,但不是我的。该算法使用两个区域 R1 和 R2,定义如下:

R1 是元音后面的第一个非元音之后的区域,如果没有这样的非元音,R1 是单词末尾的空区域。

R2 是 R1 中元音之后的第一个非元音之后的区域,或者如果没有这样的非元音,则为单词末尾的空区域。

http://snowball.tartarus.org/texts/r1r2.html

我不明白,“单词末尾的空区域”是什么。有人可以给我一些例子吗?

4

1 回答 1

2

空区域表示空区域,没有字母。您错过了文档页面中的示例:

下面,R1 和 R2 显示了一些英语单词,

b   e   a   u   t   i   f   u   l
                  |<------------->|    R1
                          |<----->|    R2

字母 t 是美中元音之后的第一个非元音,所以 R1 是 iful。在 iful 中,字母 f 是元音之后的第一个非元音,所以 R2 是 ul。

b   e   a   u   t   y
                  |<->|    R1
                    ->|<-  R2 

在美中,最后一个字母 y 被归类为元音。同样,字母 t 是元音之后的第一个非元音,因此 R1 只是最后一个字母 y。R1 不包含非元音,因此 R2 是单词末尾的空区域。

b   e   a   u
            ->|<-  R1
            ->|<-  R2
于 2016-09-07T11:45:30.437 回答