问题标签 [anti-join]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3537 浏览

pandas - 如何在熊猫中执行反连接或左外连接(基于多个键获取数据集中不在另一个数据集中的所有行)

我有两个数据集:

我想执行反连接,以便生成的数据框包含 df1 的行,其中在 df2 中找不到键 [['label1', 'label2']]。

结果 df 应该是:

在使用 dplyr 的 R 中,代码为:

谢谢你的帮助。

0 投票
1 回答
9569 浏览

scala - Spark数据帧中的左反连接

我有两个数据框,我想只检索其中一个数据框的信息,在内部连接中找不到,见图:

全外连接

我尝试了几种方法:内部连接和过滤返回至少一个 null 的行,Spark 1.6文档中描述的所有连接类型,但未能从一个连接中获取结果。

有人可以帮忙吗?

0 投票
2 回答
1584 浏览

sql - SQL:如何删除也在另一个表中的行?

假设我有两张桌子。例如,

表格1:

和表 2

如何删除表 1 中也包含在表 2 中的所有行?

因此,新的表 1 将是:

0 投票
1 回答
1359 浏览

python - python中不同级别的反连接pandas数据帧

我有两个熊猫数据框,分别是 df1 和 df2。df1 有 6 个变量,df2 有 5 个变量。两个数据帧中的第一个变量都是字符串格式,铰孔是 int 格式。

我想通过使用两个数据帧的前 3 列来识别两个数据帧中不匹配的记录,并且必须将它们从 df1 数据帧中排除。

为此,我尝试了以下代码,但它为我抛出了 Nan 值,如果我删除 Nan 值,则将删除所需的数据。

输入数据:-

预期输出:-

句法:-

请任何人都可以帮助我解决这个问题。

提前致谢。

0 投票
1 回答
5254 浏览

apache-spark - Spark数据集何时使用Except vs Left Anti Join

我想知道调用 except ( https://spark.apache.org/docs/2.1.0/api/java/org/apache/spark/sql/Dataset.html#except(org.apache. spark.sql.Dataset)并使用左反连接。到目前为止,我能看到的唯一区别是使用左反连接,两个数据集可以有不同的列。

0 投票
2 回答
545 浏览

sql - SQL 反连接删除优化

我在 postgres 数据库中有两个表,posts并且users. posts有一个user_id引用users.id主键列的外键。两张桌子都很大。

我刚刚删除了一组随机用户(约占总用户的 80%),我想删除所有引用已删除用户的帖子,实际上是反加入和删除。这样做最有效的方法是什么?

目前我有这个:

有没有更有效的方法来做到这一点?

0 投票
0 回答
20 浏览

r - sparklyr antijoin 中的近似双重比较

我正在尝试对现有sparklyr代码进行微小的更改;这些更改旨在提供相同的结果,只是代码应该更具可读性和效率。因此,我想确保获得相同的结果,这些结果已存储在hive表格中。为此,我使用以下方法将新结果与旧结果进行比较anti_join

我没有得到 100% 的匹配,在查看了细节之后,我怀疑anti-join在双打方面没有发挥应有的作用。似乎它可能会考虑实际上不是的不同值。

可重现的示例(但可能是从 spark 到 R 再返回到 spark 会改变情况):

0 投票
2 回答
278 浏览

r - 如何从两个数据框中删除不匹配的数据,以在 R 中创建一个新的数据框

我正在创建一个图表,将每个国家的预期寿命年龄和国家养老金年龄相关联。我使用网络抓取包从 2 个维基百科页面抓取 2 个数据集。

其中一个数据集包含“国家”列,另一个数据集包含“国家和地区”列。这是一个问题,因为两个数据集都需要合并,但由于“国家和地区”列中的区域而导致不平衡。

为了解决这个问题,我需要在合并数据集之前删除“国家和地区”中的区域,所以它是平衡的。我需要用“国家”从“国家和地区”中找到不匹配的数据,将其删除,然后用 2 个数据集创建一个数据框。

0 投票
0 回答
46 浏览

r - 在 tibble 中设置连续向量之间的差异(累积方式)

我想找到一种更短的方法来计算 tibble 中的分组向量之间的连续差异(不是 B 中的 A),其中每个差异都在组“x”的向量与所有先前组中的向量的串联之间。

我在 for 循环中找到了使用 anti_join 的解决方案,但我想知道是否有更简洁的方法。

换句话说,如果:

组 1:“a”、“b”

组 2:“a”、“c”

组 3:“b”、“d”

当我计算 group3 和 group1:2 之间的累积连续差异时,我应该得到:

组 3:“d”

因为“d”是唯一未包含在所有先前组中的元素。

0 投票
3 回答
831 浏览

c# - C# linq 是否支持“反连接”语义?

我用谷歌搜索了一会儿,没有找到直接的反连接语义示例。以 C# LINQ 为例,如何做到这一点?