1

我是自然语言处理的新手,我想通过创建一个简单的项目来了解更多信息。NLTK被建议在 NLP 中流行,所以我将在我的项目中使用它。

这是我想做的事情:

  • 我要扫描我们公司的内网页面;大约 3K 页
  • 我想根据某些标准解析和分类这些页面的内容,例如:人力资源、工程、公司页面等...

从我目前阅读的内容来看,我可以使用命名实体识别来做到这一点。我可以为每个页面类别描述实体,训练 NLTK 解决方案并运行每个页面以确定类别。

这是正确的方法吗?我很欣赏任何方向和想法......

谢谢

4

1 回答 1

1

看起来您想做文本/文档分类,这与命名实体识别不太一样,后者的目标是识别文本中的任何命名实体(专有名称、地点、机构等)。但是,在有限域中进行文本分类时,专有名称可能是非常好的功能,例如,具有首席工程师姓名的页面可能会被分类为工程。

NLTK 书中有一章是关于基本文本分类的

于 2010-10-23T11:38:08.927 回答