python - 使用python以编程方式猜测段落的标签

Question

我试图阅读一般的 NLP 和专门用于 python 的 nltk。我不确定是否存在正在寻找的东西，或者我是否需要开发它。

我有一个从不同文件中收集文本的程序，文本非常随机并且谈论不同的事情。每个文件最多包含一个或 3 个段落，我的程序打开文件并将它们存储到一个表中。

我的问题是，我能猜出段落的标签吗？如果有人知道现有的技术或方法，我将不胜感激。

谢谢，

score 1 · Accepted Answer

您的任务称为“文档分类”，nltk 书有一整章。我会从那开始。

这完全取决于您分配标签的标准。您是否有兴趣将您的文档与一组预先存在的标签进行匹配，或者可能对主题提取感兴趣（选择文本中最重要的 N 个单词或短语）？

score 0 · Accepted Answer

您应该训练一个分类器，最容易开发的分类器（并且您不需要像 NLTK 提供的那样开发它）是朴素的贝斯算法。问题是您需要手动对观察的语料库进行分类，然后让程序猜测哪个标签最适合给定段落（不用说，训练语料库越大，您的分类器就越精确，恕我直言，您可以达到80-85% 的正确性）。看看文档。

2 回答 2