我的问题很直接,我花了几个小时在网上搜索为主题/单词生成关键字的现有方法。例如,如果我的输入是:
面向对象编程
我希望我的输出符合以下内容:
类、对象、友元函数、静态变量等
我目前对解决方案的想法是搜索我感兴趣的特定主题,为其生成关键字,获取前 x(许多) 个结果页面,从中删除所有标签和停用词,通过 Python nltk lemmatizer 传递每个单词以获得它的基本形式,所以我不会多次计算本质上意味着相同事物的单词(“performance”和“performer”都将变为“perform”),然后计算每个单词的出现次数,并将前 x% 作为与我的搜索主题最相关的词。
第一个问题是它不会生成任何短语,因为它单独处理每个单词,第二个是这个领域必须已经做了一些事情,我在研究期间得出的结果是:上下文向量(看起来与我想要的非常相似,但实际上它们并不是真的......我认为...... :p)第二件事是波特词干分析器算法,但后来我意识到词形还原对我的事业来说要好得多......我也看到了很多为网站增加流量的“关键字生成器”,但我非常怀疑我是否可以将其中任何一个用于我想做的事情。
如果有人能指出我的算法或现有研究的方向,或者任何东西,我真的很感激:)