0

我的问题很直接,我花了几个小时在网上搜索为主题/单词生成关键字的现有方法。例如,如果我的输入是:

面向对象编程

我希望我的输出符合以下内容:

类、对象、友元函数、静态变量等

我目前对解决方案的想法是搜索我感兴趣的特定主题,为其生成关键字,获取前 x(许多) 个结果页面,从中删除所有标签和停用词,通过 Python nltk lemmatizer 传递每个单词以获得它的基本形式,所以我不会多次计算本质上意味着相同事物的单词(“performance”和“performer”都将变为“perform”),然后计算每个单词的出现次数,并将前 x% 作为与我的搜索主题最相关的词。

第一个问题是它不会生成任何短语,因为它单独处理每个单词,第二个是这个领域必须已经做了一些事情,我在研究期间得出的结果是:上下文向量(看起来与我想要的非常相似,但实际上它们并不是真的......我认为...... :p)第二件事是波特词干分析器算法,但后来我意识到词形还原对我的事业来说要好得多......我也看到了很多为网站增加流量的“关键字生成器”,但我非常怀疑我是否可以将其中任何一个用于我想做的事情。

如果有人能指出我的算法或现有研究的方向,或者任何东西,我真的很感激:)

4

1 回答 1

1

您正在寻找的是一个专注的爬虫。看看BootCat。BootCat 将关键字提取为 n-gram,但您可以使用自己的算法从网页中提取关键字(而不是将空格分隔的字符串提取为单词)。您还可以使用一些库或 REST API 进行关键字提取,它们将为您提取多字关键字。在这里,在“外部链接”部分,您可以找到一些关键字提取器的列表。

于 2013-09-23T14:54:11.540 回答