我想从英文文本中提取正在销售的产品名称。
例如:
“我正在出售全新的 Xbox”
“卖很少用的27寸电视”
应该给我"xbox"
和"27 inch TV"
目前我唯一能想到的就是在一个巨大的重要名词和重要形容词列表中硬编码:['tv', 'fridge', 'xbox', 'laptop', etc]
有更好的方法吗?
我想从英文文本中提取正在销售的产品名称。
例如:
“我正在出售全新的 Xbox”
“卖很少用的27寸电视”
应该给我"xbox"
和"27 inch TV"
目前我唯一能想到的就是在一个巨大的重要名词和重要形容词列表中硬编码:['tv', 'fridge', 'xbox', 'laptop', etc]
有更好的方法吗?
看起来 nltk 会给你一个单词列表和它们的词性。既然你只对名词感兴趣?这将为您提供
>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
[('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is',
'VBZ'), ("n't", 'RB'), ('all', 'DT'), ('that', 'DT'), ('bad', 'JJ'),
('.', '.')]