Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我必须为一长串单词实现文本分类。我定义了一些类别,例如,如果列表中包含“UK”一词,它将位于“Regions”下。如果单词是“Pizza”,它将归入“食物”类别。
如何对不同类别的单词进行分类?有没有可用的开源工具来做到这一点?
我不完全确定您要做什么,但是如果您想要为多个类别建立一个代表词列表,那么您可以通过选择前 N 个最常见的词来做到这一点,不包括停用词,从代表每个类别的一组文档中。这是创建非常基本的本体的一种简单方法。
例如,要创建一组关于食物的词,您可以在网络上爬取食谱和菜单,然后从中选择最常用的词。我希望一旦你排除了停用词,你就会有一个很好的与食物相关的词列表。对于与编程相关的单词,您可以抓取stackoverflow.com等...
再说一次,这可能不是你想要做的......