我有一项任务,我需要根据存在客户面临的问题的文本字段来预测连续变量、里程表读数。此字段不是下拉菜单,而是使用客户的逐字更新。所以我需要根据客户面临的问题的文本字段来预测里程表读数。例如:
**Text** **Odometer Reading**
Clutch problem 20,000
Axle Issue 150,000
编辑:
我正在使用 unigram 构建线性模型。但是当我执行数据预处理时会收到此警告:
> corp <- Corpus(VectorSource(ISSUES$CUSTOMER_VOICE))
>
> corp <- tm_map(corp,tolower)
Warning message:
In tm_map.SimpleCorpus(corp, tolower) : transformation drops documents
> corp <- tm_map(corp,removePunctuation)
Warning message:
In tm_map.SimpleCorpus(corp, removePunctuation) :
transformation drops documents
> corp <- tm_map(corp,removeWords,stopwords('english'))
Warning message:
In tm_map.SimpleCorpus(corp, removeWords, stopwords("english")) :
transformation drops documents
> corp <- tm_map(corp,stemDocument)
Warning message:
In tm_map.SimpleCorpus(corp, stemDocument) : transformation drops documents
有人可以告诉我如何解决这个警告。