我试图阅读一般的 NLP 和专门用于 python 的 nltk。我不确定是否存在正在寻找的东西,或者我是否需要开发它。
我有一个从不同文件中收集文本的程序,文本非常随机并且谈论不同的事情。每个文件最多包含一个或 3 个段落,我的程序打开文件并将它们存储到一个表中。
我的问题是,我能猜出段落的标签吗?如果有人知道现有的技术或方法,我将不胜感激。
谢谢,
您的任务称为“文档分类”,nltk 书有一整章。我会从那开始。
这完全取决于您分配标签的标准。您是否有兴趣将您的文档与一组预先存在的标签进行匹配,或者可能对主题提取感兴趣(选择文本中最重要的 N 个单词或短语)?
您应该训练一个分类器,最容易开发的分类器(并且您不需要像 NLTK 提供的那样开发它)是朴素的贝斯算法。问题是您需要手动对观察的语料库进行分类,然后让程序猜测哪个标签最适合给定段落(不用说,训练语料库越大,您的分类器就越精确,恕我直言,您可以达到80-85% 的正确性)。看看文档。