是否有一个巨大的 CSV/XML 或任何包含英语动词列表及其变体的文件(例如,sell -> sold、sale、selling、seller、seller)?
我想这对 NLP 系统很有用,但似乎任何地方都没有列表,或者这可能是我糟糕的谷歌搜索技能。有没有人有其他线索?
是否有一个巨大的 CSV/XML 或任何包含英语动词列表及其变体的文件(例如,sell -> sold、sale、selling、seller、seller)?
我想这对 NLP 系统很有用,但似乎任何地方都没有列表,或者这可能是我糟糕的谷歌搜索技能。有没有人有其他线索?
考虑Catvar:
类别变体数据库(或 Catvar)是未变形词(词素)及其类别(即词性)变体的集群的数据库。例如,饥饿(V)、饥饿(N)、饥饿(AJ)和饥饿(N)这些词是描述饥饿状态的一些基本概念的不同英文变体。另一个例子是开发集群:(开发(V),开发(N),开发(AJ),开发(N),开发(AJ),开发(N))。
我不确定您在寻找什么,但我认为WordNet
- 一个英语词汇数据库 - 将是一个不错的起点。在http://wordnet.princeton.edu/阅读更多内容
我提到你的链接说
WordNet 的结构使其成为计算语言学和自然语言处理的有用工具。
考虑获取维基词典的转储并从中提取此信息。
http://en.wiktionary.org/wiki/sell提到了这个词的许多形式(sells、selling、sell)。
如果您的目标只是将单词标准化为某种基本规范形式,请考虑使用词形还原器或词干分析器。尝试使用morpha,这是一个非常好的英语词形还原器。