2

我正在开发一个自然语言处理应用程序。我有一个描述 30 个域的文本。每个域都有一个简短的段落来解释它。我的目标是根据该文本构建一个词库,以便我可以从输入中确定string涉及哪些域。文本大约 5000 个单词,每个域由 150 个单词描述。我的问题是:

我是否有足够长的文本来创建词库?

我构建词库的想法是合法的,还是应该只使用 NLP 库来分析我的语料库和输入字符串?

目前,我计算了按域分组的每个单词的总出现次数,因为我首先想到了索引方法。但我真的不确定哪种方法最好。有人在 NLP 和词库构建方面都有经验吗?

4

2 回答 2

2

我认为您正在寻找的是主题建模。给定一个词,你想得到这个词属于哪个域的概率。我建议使用实现 LDA(潜在狄利克雷算法)的现成算法。或者,您可以访问David Blei 的网站。他编写了一些很棒的软件来实现 LDA 和一般的主题建模。他还为初学者提供了几个主题建模教程。

于 2014-06-13T16:49:41.003 回答
1

如果您的目标是建立一个词库,那么就建立一个词库;如果您的目标不是建立同义词库,那么您最好使用可用的东西。

更一般地说,对于 NLP 中的任何任务——从数据采集到机器翻译——你都会面临许多问题(技术和理论),而且很容易偏离路径,因为这些问题是——大多数时候- 迷人。

无论任务是什么,使用现有资源构建一个系统。然后你会得到大局;那么你就可以开始考虑改进组件 A 或 B。

祝你好运。

于 2014-06-12T08:24:06.197 回答