0

是否有任何 python 包可以获取关键字/标签列表并将它们与给定的字符串/文件/url 匹配?

特别是使用词干和/或其他一些同义词匹配方式。

即我预先保存的关键字:

Ski, Bike, Climb

我的文字:

Skiing in the mountains is great

应该被标记为Ski

Skiing and mountain biking is fun

应该用SkiAnd标记Bike

如果我有一个同义词文件映射Bike到某处MTB

MTB is a great way to spend the day

应该被标记Bike

4

2 回答 2

0

请参阅Thesaurus(您也可以尝试不同的模块,例如synonymmodule)。

您还可以使用以下方法测试包含特定字符串的句子in

>>> 'Ski' in 'Skiing in the mountains is great'
True
>>> 'Bike' in 'Skiing in the mountains is great'
False
于 2011-12-04T12:02:59.580 回答
0

我不知道有什么包可以做到这一点,但实际上这对于普通的 python 来说非常简单。使用 re (regex) 标准包。就像是

import re
key_words =['ski','bike','climb'] 
input = "Skiing and mountain biking is fun"

input_words = input.split()#split on space
[word.lower() for word in input_words]
input_tags =[]
for word in input_words:
   for key in key_words:
      if re.search(key,word):
         input_tags.append(key)
于 2011-12-04T15:57:40.940 回答