我正在开发一个自然语言处理应用程序。我有一个描述 30 个域的文本。每个域都有一个简短的段落来解释它。我的目标是根据该文本构建一个词库,以便我可以从输入中确定string
涉及哪些域。文本大约 5000 个单词,每个域由 150 个单词描述。我的问题是:
我是否有足够长的文本来创建词库?
我构建词库的想法是合法的,还是应该只使用 NLP 库来分析我的语料库和输入字符串?
目前,我计算了按域分组的每个单词的总出现次数,因为我首先想到了索引方法。但我真的不确定哪种方法最好。有人在 NLP 和词库构建方面都有经验吗?