这是一个直截了当的问题:
我有时间文本数据,如下所示:
110
120+
50 分钟
50 分钟
35-40
30
1 小时半
1 小时 20 分钟
清理这些数据以便我分析它的最佳方法是什么?这是机器学习的工作吗?如果是这样,在这种情况下最能帮助我的库/工具是什么?
一种想法是使用 gsub:
"as.numeric(gsub("([0-9]+).*$", "\1", Timedata))" 但这会过度简化数据。
我希望数据在清理后看起来像这样:
110
120
50
50
37.5
30
90
80