我正在研究一个文本分类问题,我正在尝试将一组单词分类,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答。
让我解释一下我想要实现的内容。(举个例子)
单词列表:
- 爪哇
- 编程
- 语
- 升c
类别列表。
- 爪哇
- 升c
在这里,我们将训练该集合,如下所示:
- java 映射到类别 1。 java
- 编程映射到类别 1.java
- 编程映射到类别 2.c-sharp
- 语言映射到类别 1.java
- 语言映射到类别 2.c-sharp
- c-sharp 映射到类别 2.c-sharp
现在我们从给定的短语中得到了一个短语“ The best java programming book ”,下面的单词与我们的“单词列表”匹配:
- 爪哇
- 编程
“编程”有两个映射类别“java”和“c-sharp”,所以它是一个常用词。
“java”仅映射到类别“java”。
所以我们的短语匹配类别是“java”
这就是我想到的,这个解决方案好不好,可以实施吗,你有什么建议,我遗漏的任何东西,缺陷等。