问题标签 [sqldf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
392 浏览

r - 如何使用丢失的数据帧进行 rbind?

我正在做竞选财务数据,并正在寻找在 1989 年至 2010 年间捐赠了 x 金额的 x 公司的员工。使用 sqldf 我能够解析出这些信息。数据>4gb,而我的内存<2gb,因此我将数据分解为大约100mb 的电子表格,并加载了40 个以获取此信息。有些有来自 x 公司的贡献者,有些没有。

有谁知道如何为文件制作“捕手手套”?这个“捕手手套”将识别这些相关文件并绑定行。

我附上我的代码,以防有人也想进行一般改进?

谢谢你的帮助

0 投票
2 回答
1683 浏览

r - 使用 sqldf() 选择匹配一百万个项目的行

这是对此处提供的关于使用的答案的跟进sqldf()

https://stackoverflow.com/a/1820610

在我的特殊情况下,我有一个超过 1.1 亿行的制表符分隔文件。我想选择匹配 460 万个标签 ID 的行。

在以下代码中,标签 ID 位于tag.query

但是,虽然该示例适用于较小的查询,但它不能处理上述较大的示​​例:

关于替代方法的任何建议?

0 投票
2 回答
412 浏览

r - 在 sqldf 中将引用声明为“引用”

我有一个 csv 文件sep="\t", quote=TRUE,因此引用的数据如下"2011-01-11"

我使用以下脚本将 csv 文件导入 R

temp <- sqldf("select * from dummy limit 10",file.format=list(header=TRUE,sep="\t",quote="\""))

但它给了我类似的东西"\"2011-01-11\""

\"是我想摆脱的每个单元格中的多余东西,我该怎么做?谢谢。

0 投票
1 回答
190 浏览

r - 如何优化大型 R 数据框中每一行的过滤和计数

我有一个数据框,如下所示:

对于每个唯一的姓名/日期对,我想计算一个总数范围,例如“此人当前或第二天工资大于 175 的次数”。列比工资多得多,并且有四个时间片适用于每一行的每个总计。

我目前可以通过唯一化我的数据框来完成:

然后对于 中的每一行df.unique,将以下函数(为清楚起见而写成简写形式)应用于df

给我,在这个简单的例子中:

但是,鉴于我有数十万行,这似乎是一种极其缓慢的方法。有没有更聪明的方法来做到这一点?矩阵运算、应用、sqldf 之类的东西?

重新创建示例 df 的代码:

0 投票
2 回答
11122 浏览

sql - 一起使用 sqldf 和 RPostgreSQL

使用时RPostgreSQL我发现我不能sqldf以相同的方式使用。例如,如果我使用以下代码加载库并将数据读入数据框中:

我知道数据框中有这张表的内容df。但是,如果我想使用sqldf之前运行 SQL 命令,我会执行以下操作:

当我收到错误消息时,这不再有效:

我认为这是我的操作员错误,但我不知道如何提供哪些参数,sqldf以便它只关注数据框而不尝试连接到其他任何东西。

0 投票
1 回答
814 浏览

java - 使用 JRI 在 Java 中调用 R 的 sqldf 包

我已经使用 JRI 开发了 Java 代码,用于在 Java 上执行 R 代码。现在,我遇到了一个问题(在数据框的列中提取不同的值),我必须使用 R 的 sqldf 包并尝试在我的 Java 代码中使用它的功能。这是示例代码(橙色是默认情况下已经存在于 R 中的数据集):

上述代码的输出是:

这意味着“dframe”不包含任何内容。但是当我尝试在 R 上运行相同的 sqldf func: sqldf("select * from Orange") 时,它给了我 35 行。如何在 java 中使用 sqldf 函数以获得想要的结果?

我的环境变量设置如下:

0 投票
1 回答
100 浏览

sql - 两个完全不同的查询的相同输出

在 R studio v_0.96 中运行时,以下两个查询给出相同的输出

1)

2)

我似乎不明白相同答案背后的原因,尽管第一个答案似乎与第二个答案完全不同。我在 SQL 方面不是很有经验,所以请多多包涵。是否需要有关数据集的更多信息来回答这个问题?

0 投票
1 回答
2598 浏览

r - 连接变量存在重复项时的内连接

可能重复:
如何在 R 中加入数据框(内、外、左、右)?

这个问题很好地解决了 R 中的连接问题。

并且关于内部连接的维基百科文章很有用。

我想在基础 R 中重现此结果。我不认为以下工作:

因为合并变量上的重复。

但是,sqldf有效:

我的问题是:

  1. 这是否意味着 merge 不会在这里执行内部联接。

  2. 我怎样才能在base R中完成这个加入。

这是来自网站和上面示例的两个数据框架。

0 投票
1 回答
1161 浏览

r - 对变量的不同值重复 sqldf

只是一点背景:我是通过统计进入编程的,我没有太多正式的编程经验,我只是知道如何让事情发挥作用。我愿意接受任何从不同方向提出的建议,但我目前正在使用多个 sqldf 查询来获取我想要的数据。我最初是在 SAS 中开始统计编程的,我经常使用的东西之一是宏编程能力。

举一个简单的例子,假设我的表 A 如下所示:

我当前使用的 select 语句的形式是: sqldf("SELECT AVG(A), SUM(B) FROM A WHERE DateAdded >= '2012-01-01' AND DateAdded <= '2012-01-31'")

现在我想对 DateAdded 在二月份的输入运行相同的查询。根据我对 SAS 的经验,您将为 DateAdded 的值创建宏变量。我考虑过将其作为(非常非常慢的)for 循环运行,但我不确定如何将 R 变量传递给 sqldf,或者这是否可能。在我的表中,我在多年的数据中使用相同的查询——任何简化我的代码的方法都将不胜感激。

0 投票
0 回答
375 浏览

r - R/sqldf/mclapply,如何同时使用 sqldf 和 mclapply?

您好我正在尝试使用 sqldf 从我的数据库中获取数据。由于 sqldf 总是会加载 tcltk,所以我不能使用 mclapply 函数。我该怎么办?谢谢。

这是一个例子。