首先让我说,我刻意避免手动清理数据,而是使用正则表达式等。然而,偶尔也是不可避免的。
我通常使用类似Load-Clean-Func-Do工作流程,所以这显然适合清洁阶段。但是,如果需要更新,任何手动编辑都会破坏在手动清理之前运行这些内容的能力。
我至少可以想到三种方法来处理这个问题:
- 尽可能早地将手动更改放在工作流程中,以便之后的所有内容都可以运行。
- 为每一次更改写出正则表达式或赋值操作。
- 在您关闭进行更改的电子表格后,使用为您生成 (2) 的工具。
2 的问题是它可能非常笨重。3 的问题是我不知道 R 存在任何此类工具。Stata 对此有非常好的实现。
所以问题是:
- 哪个导致最可复制的代码和最不令人沮丧的代码编写?
- (3) 中的工具是否存在?