1

我正在编写一些通过 wn 命令行工具访问 wordnet 的 ruby​​ 实验,因为我放弃了让 wordnet gem 工作。

我希望能够查找感官的频率,最终能够计算给定单词是名词/形容词/动词/副词的概率。

我已经尝试过文档,但它并不总是那么明确。

如果不使用 wn 工具,这可能吗?我是否在思考 wordnet 中包含此信息?

4

1 回答 1

4

据我所知,它本身不包括频率,尽管在返回结果中,synset 是从最频繁到最不频繁排序的。

您可以通过多种方式获得实际频率。也许最可靠的是使用像 Penn TreeBank 这样的 POS 标记语料库,然后自己计算值。不幸的是,如果您不在大学,则很难获得免费副本。另一种选择是建立自己的语料库(可能来自博客、古腾堡计划书籍、维基百科等),在其上运行 POS 标记器,然后从中计算频率。显然,这种方法会出现偏差,但它比手动标记语料库要容易得多。

于 2011-06-17T18:04:21.467 回答