我想从文本中提取相关术语,并且我想选择最相关的术语。
How to config nltk data -> how, to, config ignored
config mysql to scan -> config NOT ingored
Python NLTK usage -> usage ingored
new song by the band usage -> usage NOT ingored
NLTK Thinks that -> thinks ignored
critical thinking -> thinking NOT ignored
我只能想到这种粗略的方法:
>>> text = nltk.word_tokenize(input)
>>> nltk.pos_tag(text)
并且只保存名词和动词。但即使“think”和“thinking”是动词,我只想保留“thinking”。也是“结合”而不是“结合”。如果可以的话,我也想提取短语。还有“free2play”、“@pro_blogger”等术语。
请提出一个更好的方案或如何让我的方案真正发挥作用。