python - NLTK CorpusTerm 按文档矩阵

问问题 2015-05-10T15:22:20.050

615 次

我将使用 CountVectorizer 和我从 Gutenberg 检索的大型语料库（或从 nltk 检索的任何数据集） tis corpus 中有电子书。我想将这些书中的所有句子收集在同一个列表中。类似的东西：listsentences=["SENTENCE#1" ,"SENTENCE#2" ,"SENTENCE#3" ...] 我不知道如何创建句子列表。非常感谢任何帮助！这就是我的代码的样子：

from nltk.corpus import gutenberg
text=nltk.corpus.gutenberg.fileids()
gutenberg.fileids()
emma=gutenberg.sents()
vectorizer=CountVectorizer(min_df = 1, stop_words = 'english')
dtm= vectorizer.fit_transform(emma)
pd.DataFrame(dtm.toarray(),columns=vectorizer.get_feature_names()).head(10)
vectorizer.get_feature_names()
lsa = TruncatedSVD(3, algorithm = 'arpack')
dtm_lsa = lsa.fit_transform(dtm)
dtm_lsa = Normalizer(copy=False).fit_transform(dtm_lsa)

python - NLTK CorpusTerm 按文档矩阵

0 回答 0

Related

Reference