我想尝试根据用户在搜索框中输入的词来确定用户的个性特征。这是一个例子:
搜索词:“电脑”
检测到的性格/描述符:分析的、逻辑的、系统的、有条理的
我知道这项任务非常重要。我以前使用过 WordNet,但我不确定它是否包含每个名词节点的形容词云。词性标注本身就是一头野兽,所以我不确定建立自己的语料库并搜索与关键字共存的形容词词频是否是最好的主意,但我将在下面解释。
我目前正在使用维基百科转储,在删除停用词(and、or、of、to、a 等)后处理每篇文章的词频。我的想法是可能在整个语料库中搜索形容词(使用 WordNet 进行词性标注)和名词的共存(例如,形容词逻辑经常与名词计算机同时出现),并且基于相对的词干形容词频率,判断它是否与名词语义相关。潜在的应用是巨大的。
另一个想法是将名词词干,搜索以该词干开头的形容词,然后搜索该形容词的同义词。例子:
搜索词:“电脑”
词干:“计算-”
带词干的形容词:计算
同义词:???
问题是名词的形容词形式并不总是有形容词形式,一些名词词干会匹配到非常错误的形容词。*不好*例如:
搜索词:“running”(技术上是动名词,但仍然是名词)
词干:“跑——”
带词干的形容词:流鼻涕
同义词:不是我想要的词。想找到像“运动”、“有动力”、“有纪律”这样的词
这是以前做过的事情吗?你对我如何处理这个问题有什么建议吗?这几乎就像我正在为文档中的“重要”单词生成形容词云一样。
编辑:我意识到这个问题没有“正确”的答案。我将奖励赏金给提出具有最佳理论潜力的方法的人。