我正在开发一个程序,我想过滤掉一些单词,使用 nltk 样式删除停用词,如下所示:
def phrasefilter(phrase):
phrase = phrase.replace('hi', 'hello')
phrase = phrase.replace('hey', 'hello')
phrase = re.sub('[^A-Za-z0-9\s]+', '', phrase.lower())
noise_words_set = ['of', 'the', 'at', 'for', 'in', 'and', 'is', 'from', 'are', 'our', 'it', 'its', 'was', 'when', 'how', 'what', 'like', 'whats', 'now', 'panic', 'very']
return ' '.join(w for w in phrase.split() if w.lower() not in noise_words_set)
有没有办法在 web2py DAL 上做到这一点。
db.define_table( words,
Field(words1, REQUIRES IS_NOT_NULL(), REQUIRES....
例如,我想把它放在 REQUIRES IS_NOT_IN_NOISE_WORDS_SET() 约束中。这可能吗?正在处理用户输入(将字符串保存到数据库),它会自动删除我选择的停用词,而不是使用上面显示的代码段。