TextBlob是一个易于使用的 Python NLP 库,它是免费和开源的(根据宽松的 MIT 许可证获得许可)。它为优秀的NLTK和模式库提供了一个很好的包装器。
解决问题的一种简单方法是从给定文本中提取名词短语。
这是TextBlob 文档中的一个示例。
from text.blob import TextBlob
text = '''
The titular threat of The Blob has always struck me as the ultimate movie
monster: an insatiably hungry, amoeba-like mass able to penetrate
virtually any safeguard, capable of--as a doomed doctor chillingly
describes it--"assimilating flesh on contact.
Snide comparisons to gelatin be damned, it's a concept with the most
devastating of potential consequences, not unlike the grey goo scenario
proposed by technological theorists fearful of
artificial intelligence run rampant.
'''
blob = TextBlob(text)
print(blob.noun_phrases)
# => ['titular threat', 'blob', 'ultimate movie monster', ...]
这可能是一个起点。从那里您可以尝试其他方法,例如评论或TF-IDF中提到的相似性方法。TextBlob 还可以轻松交换模型以进行名词短语提取。
全面披露:我是 TextBlob 的作者。