Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在编写一些通过 wn 命令行工具访问 wordnet 的 ruby 实验,因为我放弃了让 wordnet gem 工作。
我希望能够查找感官的频率,最终能够计算给定单词是名词/形容词/动词/副词的概率。
我已经尝试过文档,但它并不总是那么明确。
如果不使用 wn 工具,这可能吗?我是否在思考 wordnet 中包含此信息?
据我所知,它本身不包括频率,尽管在返回结果中,synset 是从最频繁到最不频繁排序的。
您可以通过多种方式获得实际频率。也许最可靠的是使用像 Penn TreeBank 这样的 POS 标记语料库,然后自己计算值。不幸的是,如果您不在大学,则很难获得免费副本。另一种选择是建立自己的语料库(可能来自博客、古腾堡计划书籍、维基百科等),在其上运行 POS 标记器,然后从中计算频率。显然,这种方法会出现偏差,但它比手动标记语料库要容易得多。