6

是否有一个巨大的 CSV/XML 或任何包含英语动词列表及其变体的文件(例如,sell -> sold、sale、selling、seller、seller)?

我想这对 NLP 系统很有用,但似乎任何地方都没有列表,或者这可能是我糟糕的谷歌搜索技能。有没有人有其他线索?

4

3 回答 3

4

考虑Catvar

类别变体数据库(或 Catvar)是未变形词(词素)及其类别(即词性)变体的集群的数据库。例如,饥饿(V)、饥饿(N)、饥饿(AJ)和饥饿(N)这些词是描述饥饿状态的一些基本概念的不同英文变体。另一个例子是开发集群:(开发(V),开发(N),开发(AJ),开发(N),开发(AJ),开发(N))。

于 2012-12-16T06:45:57.243 回答
3

我不确定您在寻找什么,但我认为WordNet- 一个英语词汇数据库 - 将是一个不错的起点。在http://wordnet.princeton.edu/阅读更多内容

我提到你的链接说

WordNet 的结构使其成为计算语言学和自然语言处理的有用工具。

于 2012-12-13T05:36:28.517 回答
1

考虑获取维基词典的转储并从中提取此信息。
http://en.wiktionary.org/wiki/sell提到了这个词的许多形式(sells、selling、sell)。

如果您的目标只是将单词标准化为某种基本规范形式,请考虑使用词形还原器或词干分析器。尝试使用morpha,这是一个非常好的英语词形还原器。

于 2012-12-13T15:15:31.460 回答