我使用 R 进行数据分析,对此我非常满意。但是,清理数据可能会更容易一些。我正在考虑学习另一种适合这项任务的语言。具体来说,我正在寻找一种工具来获取原始数据,删除不必要的变量或观察结果,并将其格式化以便在 R 中轻松加载。内容主要是数字和字符串数据,而不是多行文本。
我正在考虑 awk/sed 组合与 Python。(我认识到 Perl 是另一种选择,但是,如果我要学习另一种完整的语言,Python 似乎是一个更好、更可扩展的选择。)
sed/awk 的优点是学习起来会更快。缺点是这种组合不如 Python 那样可扩展。确实,如果我学习 Python,我可能会想象一些“任务蠕变”,这很好,但不是我的目标。
我的另一个考虑是应用于大型数据集。据我了解,awk/sed 逐行操作,而 Python 通常会将所有数据拉入内存。这可能是 sed/awk 的另一个优势。
还有其他我想念的问题吗?您可以提供的任何建议将不胜感激。(我为 R 用户添加了 R 标签,以提供他们的清洁建议。)