我尝试了正则表达式词干分析器,但我得到了数百个不相关的标记。我只是对“玩”词干感兴趣。这是我正在使用的代码:
import nltk
from nltk.book import *
f = open('tupac_original.txt', 'rU')
text = f.read()
text1 = text.split()
tup = nltk.Text(text1)
lowtup = [w.lower() for w in tup if w.isalpha()]
import sys, re
tupclean = [w for w in lowtup if not w in nltk.corpus.stopwords.words('english')]
from nltk import stem
tupstem = stem.RegexpStemmer('az$|as$|a$')
[tupstem.stem(i) for i in tupclean]
上面的结果是;
['like', 'ed', 'young', 'black', 'like'...]
我正在尝试清理.txt
文件(全部小写,删除停用词等),将一个单词的多个拼写规范化为一个并进行频率分布/计数。我知道该怎么做FreqDist
,但是关于我在哪里做词干有什么建议吗?