4

我必须为一长串单词实现文本分类。我定义了一些类别,例如,如果列表中包含“UK”一词,它将位于“Regions”下。如果单词是“Pizza”,它将归入“食物”类别。

如何对不同类别的单词进行分类?有没有可用的开源工具来做到这一点?

4

1 回答 1

2

我不完全确定您要做什么,但是如果您想要为多个类别建立一个代表词列表,那么您可以通过选择前 N 个最常见的词来做到这一点,不包括停用词,从代表每个类别的一组文档中。这是创建非常基本的本体的一种简单方法。

例如,要创建一组关于食物的词,您可以在网络上爬取食谱菜单,然后从中选择最常用的词。我希望一旦你排除了停用词,你就会有一个很好的与食物相关的词列表。对于与编程相关的单词,您可以抓取stackoverflow.com等...

再说一次,这可能不是你想要做的......

于 2011-01-30T19:28:02.460 回答