有关于为 text2vec 包创建 DTM(文档术语矩阵)的文档,例如在构建矩阵后应用 TFIDF 加权的以下内容:
data("movie_review")
N <- 1000
it <- itoken(movie_review$review[1:N], preprocess_function = tolower,
tokenizer = word_tokenizer)
v <- create_vocabulary(it)
vectorizer <- vocab_vectorizer(v)
it <- itoken(movie_review$review[1:N], preprocess_function = tolower,
tokenizer = word_tokenizer)
dtm <- create_dtm(it, vectorizer)
# get tf-idf matrix from bag-of-words matrix
dtm_tfidf <- transformer_tfidf(dtm)
通常的做法是基于训练数据集创建 DTM,并将该数据集用作模型的输入。然后,当遇到新数据(测试集)时,需要在新数据上创建相同的 DTM(意味着在训练集中使用的所有相同术语)。包中是否有以这种方式转换新数据集的方法(在 scikit 中,我们有一个仅用于这种类型实例的转换方法)。