我正在使用 SQL 和 R 开发文本挖掘解决方案。
首先,我从我的 SQL 选择中将数据导入 R,然后用它进行数据挖掘。
这是我得到的:
rawData = sqlQuery(dwhConnect,sqlString)
a = data.frame(rawData$ENNOTE_NEU)
如果我做一个
a[[1]][1:3]
你看结构:
[1] lorem ipsum li ld ee wö wo di dd
[2] la kdin di da dogs chicken
[3] kd good i need some help
现在我想用我自己的字典做一些数据清理。一个例子是用lorem ipsum 和kd替换li以及用kunde替换kdin
我的问题是如何为整个数据框做到这一点。
for(i in 1:(nrow(a)))
{
a[[1]][i]=gsub( " kd | kdin " , " kunde " ,a[[1]][i])
a[[1]][i]=gsub( " li " , " lorem ipsum " ,a[[1]][i])
...
}
有效,但对于大量数据来说速度很慢。
有没有更好的方法来做到这一点?
欢呼船长