如果一个人在 R 中构建一个实质性的、组织范围的代码库,依赖 sqldf 包作为数据处理任务的默认方法是否可以接受?还是在可能的情况下依赖具有 R 特定语法的操作的最佳实践?通过依赖 sqldf,我们在他们的 R 代码库中引入了大量不同的语法 SQL。
我问这个问题是关于可维护性和风格的。我搜索了现有的 R 风格指南,但没有找到关于这个主题的任何内容。
编辑:为了澄清我关心的工作流程,考虑一个充分利用 sqldf 的数据处理脚本,如下所示:
library(sqldf)
gclust_group<-sqldf("SELECT clust,SUM(trips) AS trips2
FROM gclust
GROUP BY clust")
gclust_group2<-sqldf("SELECT g.*, h.Longitude,h.Latitude,h.withinss, s.trips2
FROM highestd g
LEFT JOIN centers h
ON g.clust=h.clust
LEFT JOIN gclust_group s
ON g.clust=s.clust")
这样的脚本可以持续多行。(对于那些熟悉 Hadoop 和 PIG 的人来说,风格实际上类似于 PIG 脚本)。大部分工作都是使用 SQL 语法完成的,尽管这样做有利于避免复杂的子查询。