nlp - 雪球词干：定义空区域

Question

我试图了解雪球词干算法。HW90也有类似的例子，但不是我的。该算法使用两个区域 R1 和 R2，定义如下：

R1 是元音后面的第一个非元音之后的区域，如果没有这样的非元音，R1 是单词末尾的空区域。

R2 是 R1 中元音之后的第一个非元音之后的区域，或者如果没有这样的非元音，则为单词末尾的空区域。

http://snowball.tartarus.org/texts/r1r2.html

我不明白，“单词末尾的空区域”是什么。有人可以给我一些例子吗？

score 2 · Accepted Answer

空区域表示空区域，没有字母。您错过了文档页面中的示例：

下面，R1 和 R2 显示了一些英语单词，
b   e   a   u   t   i   f   u   l
                  |<------------->|    R1
                          |<----->|    R2
字母 t 是美中元音之后的第一个非元音，所以 R1 是 iful。在 iful 中，字母 f 是元音之后的第一个非元音，所以 R2 是 ul。
b   e   a   u   t   y
                  |<->|    R1
                    ->|<-  R2 
在美中，最后一个字母 y 被归类为元音。同样，字母 t 是元音之后的第一个非元音，因此 R1 只是最后一个字母 y。R1 不包含非元音，因此 R2 是单词末尾的空区域。
b   e   a   u
            ->|<-  R1
            ->|<-  R2

nlp - 雪球词干：定义空区域

1 回答 1

Related

Reference