1

作为自学python的一部分,我编写了一个允许用户扮演刽子手的脚本。目前,要猜测的刽子手单词只是在脚本代码的开头手动输入。

我希望脚本从大量英语单词中随机选择。我知道该怎么做——我的问题是首先找到要使用的单词列表。

有谁知道网络上的来源,例如 1000 个常见的英语单词,它们可以作为文本块或类似的东西下载,我可以使用?

(我最初的想法是从古腾堡项目中获取一本小说的一部分[这个项目只是为了我自己的娱乐,不会在其他任何地方提供,所以版权等对我来说并不重要],但类似的事情很可能包含太多不适合刽子手的名称或非标准单词。基本上,我需要的文本只有在拼字游戏中合法使用的单词)。

我想这是一个有点奇怪的问题,但实际上我认为答案可能不仅对我有用,而且对从事文字游戏或类似项目的其他人有用,需要大量的单词种子列表来工作。

非常感谢任何链接或建议:)

4

3 回答 3

1

会有用吗?

于 2010-04-11T21:36:03.080 回答
0

手动创建文本列表

从古腾堡计划、维基百科或其他来源获取文本。浏览文本并计算找到每个单词的次数。出现频率最高的词是代词、连词等……扔掉就行了。

专有名词可能是最不常见的词,除非你的文本当然是一个故事,那么角色名称很可能会经常出现。处理专有名词的最佳方法可能是使用多个来源并计算该词在多少个来源中找到。本质上,在许多不同来源中常见的词可能不是专有名词。特定于一个文本源的单词,你可以扔掉。这个想法与tfidf有关。

一旦你计算了这些词频,就可以很容易地查看这些词,并根据需要调整你的列表。

使用 Wordnet

另一个想法是从Wordnet下载单词。Wordnet 告诉很多单词的词性。你可以只使用名词和动词来达到你的目的。

于 2010-04-11T21:29:27.587 回答
0

你试过 /usr/share/dict/words 吗?

于 2010-04-11T17:52:10.953 回答