2

理解字符串匹配:词干化和去复数化之间的确切区别是什么

还是他们的意思是一样的?

4

3 回答 3

9

首先,词干提取是指将单词还原为其词干的过程。但是,这可能意味着许多不同的事情。大多数语言学家至少区分两种方法:

  1. 删除语法词素,但不删除派生词素。语法语素是单词的组成部分,与它在特定句子中的语法作用相关,例如数字、格、性别方面等。

  2. 删除语法派生词素。派生语素是单词的组成部分,与它从另一个单词派生有关,例如,“worker”中的“-er”与它如何从“work”派生(或可以被认为是派生的)有关。

因此,去复数化,这是一个相当不寻常的术语,但显然是指去除复数语素(例如“计算机”末尾的“-s”),是一种词干提取的一部分,具体来说是去除的一部分语法(但不是派生的)语素。

英语中,名词的形态主要限于复数(“computers”)和属格(第二种情况,“computer's”),因此就英语而言,去复数可能被视为(几乎)与(语法)词干提取的同义词,至少在词干应用于名词的范围内,以及在某种程度上,形容词,(例如在信息检索的上下文中)。然而,无论在哪里考虑动词过去时被动语态和其他屈折形式都会受到词干的影响(但不会被去复数化)。

此外,在英语以外的语言中,即使是名词也可能具有非常丰富的形态,包括用于诸如格、礼貌级别或特殊类型的复数(例如对偶)之类的语素。然后,去复数化(如果你想用这个词的话)只会指整个词干过程的一小部分。

另一个相关的术语是词形还原,它通常与词干同义使用。我发现很多人(包括我自己)在两者之间做出的一个区别是:

  • 词干用于指一种基于规则或基于机器学习的技术,该技术可以删除看起来像语法词素的单词部分(主要是词尾)

  • 词形还原用于指代执行相同操作的过程,但使用该语言的实际词典来处理高度不规则的形式(例如复数“妇女”)

(但是,同样,并不是每个人都会同意这种区别。)

于 2012-04-24T13:45:44.333 回答
1

它们是不相同的。词干有几种方法,去复数化是一种策略。

举个简单的例子:词干分析器可能会将“幼稚”词干变为“孩子”,或者将词“词干”词干变为“词干”,而去复数算法则不会。

于 2012-04-24T12:57:20.540 回答
1

词干提取是将具有相同词根的多个单词转换为一个单词。前任。“cats”、“catlike”、“catty”到“cat”

去复数化是将复数词转换为单数词。前任。“猫”到“猫”

词干和算法的附加信息 http://en.wikipedia.org/wiki/Stemming#Algorithms

于 2012-04-24T12:59:59.090 回答