nlp - 在 Python 中使用 NLTK 时 generate() 会做什么？

Question

在过去的三天里，我一直在使用 NLTK 来熟悉并阅读“自然语言处理”一书以了解发生了什么。我很好奇是否有人可以为我澄清以下内容：

请注意，第一次运行此命令时，它会很慢，因为它会收集有关单词序列的统计信息。每次运行它，你都会得到不同的输出文本。现在尝试以就职演说或互联网聊天室的形式生成随机文本。尽管文本是随机的，但它重用了源文本中的常用单词和短语，并让我们对其风格和内容有所了解。（这个随机生成的文本缺少什么？）

这部分文本，第 1 章，简单地说它“收集统计数据”，它将得到“不同的输出文本”

generate具体是做什么的，它是如何工作的？

这个例子generate()使用了 text3，它是圣经的创世纪：

起初 , 在我和你之间 , 在花园里你可以进入挪亚和米比萨姆 , 说 , 我们还有任何分或产业吗 , 使你像以法莲和公爵们的沙子一样 .和她一起来的；他们来了。又放出鸽子从你身上放出手鼓 , 为他们大哭 ; 她怀孕了 , 并叫他们的名字 , 在子宫结束后用他们的名字 ? 和他

在这里，该generate()函数似乎只是简单地输出通过在标点符号处截断文本并随机重新组合创建的短语，但它具有一点可读性。

score 2 · Accepted Answer

type(text3)会告诉你 text3 是 type nltk.text.Text。

引用以下文档：Text.generate()

打印使用三元语言模型生成的随机文本。

这意味着 NLTK 为 Genesis 文本创建了一个N-Gram 模型，计算三个单词序列的每次出现，以便它可以预测该文本中任何给定两个单词的最有可能的继任者。N-Gram 模型将在NLTK 书的第 5 章中更详细地解释。

另请参阅此问题的答案。

1 回答 1