nlp - 从语料库构建词库

Question

我正在开发一个自然语言处理应用程序。我有一个描述 30 个域的文本。每个域都有一个简短的段落来解释它。我的目标是根据该文本构建一个词库，以便我可以从输入中确定string涉及哪些域。文本大约 5000 个单词，每个域由 150 个单词描述。我的问题是：

我是否有足够长的文本来创建词库？

我构建词库的想法是合法的，还是应该只使用 NLP 库来分析我的语料库和输入字符串？

目前，我计算了按域分组的每个单词的总出现次数，因为我首先想到了索引方法。但我真的不确定哪种方法最好。有人在 NLP 和词库构建方面都有经验吗？

score 2 · Accepted Answer

我认为您正在寻找的是主题建模。给定一个词，你想得到这个词属于哪个域的概率。我建议使用实现 LDA（潜在狄利克雷算法）的现成算法。或者，您可以访问David Blei 的网站。他编写了一些很棒的软件来实现 LDA 和一般的主题建模。他还为初学者提供了几个主题建模教程。

score 1 · Accepted Answer

如果您的目标是建立一个词库，那么就建立一个词库；如果您的目标不是建立同义词库，那么您最好使用可用的东西。

更一般地说，对于 NLP 中的任何任务——从数据采集到机器翻译——你都会面临许多问题（技术和理论），而且很容易偏离路径，因为这些问题是——大多数时候- 迷人。

无论任务是什么，使用现有资源构建一个系统。然后你会得到大局；那么你就可以开始考虑改进组件 A 或 B。

祝你好运。

2 回答 2