考虑这个修改后的经典示例:
library(dplyr)
library(tibble)
dtrain <- data_frame(text = c("Chinese Beijing Chinese",
"Chinese Chinese Shanghai",
"France",
"Tokyo Japan Chinese"),
add_numeric = c(1, 1, 0, 1),
doc_id = 1:4,
class = c(1, 1, 1, 0))
> dtrain
# A tibble: 4 x 4
text add_numeric doc_id class
<chr> <dbl> <int> <dbl>
1 Chinese Beijing Chinese 1 1 1
2 Chinese Chinese Shanghai 1 2 1
3 France 0 3 1
4 Tokyo Japan Chinese 1 4 0
在这里,我想用套索来预测class
。感兴趣的变量是text
和add_numeric
。
我知道如何使用或text2vec
仅使用tm
预测:包将转换为稀疏文档术语矩阵并提供模型。class
text
text
但是,在这里,我想同时使用文本变量text
和add_numeric
. 我不知道如何混合这两种方法。有任何想法吗?谢谢!