我们正在将数据从旧的 ERP 系统转移到新的系统,新系统将项目描述限制为 50 个单词,而旧系统则没有这样的限制。如果字符串末尾的单词超过 50,我如何要求 R 删除它们?
编辑:建议的解决方案是给我一个描述列,每个 50 个单词,但是,当单词少于 50 个时,它将 NA 代替单词,直到它产生 50 个单词。另外,被移除的部分不会存储在任何地方。
我使用 qdap 包中的 word_count 来计算单词的数量,并将新变量插入到原始数据帧中。现在如何使用此列删除第 50 个单词之后的所有单词(如果单词数>50)?我正在考虑使用计数> 50的单词位置?我想将多余的词放入另一个名为“扩展描述”的现有列中。
data[,c("wordcount")]<-wc(data$Description,digit.remove = FALSE)
输入数据:仅此处的分隔符 &&,(实际上是 R 中的数据框)
Description && wordcount && Ext Desc
MARY, EWARD-PURE FOR 12 QT HOP && 6 &&
MARY, HARRY FILTER, 1 TO 3 IN SIZE, LARGE && 10 && xxxxxx
MARY, ORGAN, MAXI WHEEL, TP F-SHAPED && 6 &&
MARY, COMBINATION DEBATABLE, 10 IN ….. && 56
数据图片