问题标签 [anti-join]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pandas - 如何在熊猫中执行反连接或左外连接(基于多个键获取数据集中不在另一个数据集中的所有行)
我有两个数据集:
我想执行反连接,以便生成的数据框包含 df1 的行,其中在 df2 中找不到键 [['label1', 'label2']]。
结果 df 应该是:
在使用 dplyr 的 R 中,代码为:
谢谢你的帮助。
scala - Spark数据帧中的左反连接
我有两个数据框,我想只检索其中一个数据框的信息,在内部连接中找不到,见图:
我尝试了几种方法:内部连接和过滤返回至少一个 null 的行,Spark 1.6文档中描述的所有连接类型,但未能从一个连接中获取结果。
有人可以帮忙吗?
sql - SQL:如何删除也在另一个表中的行?
假设我有两张桌子。例如,
表格1:
和表 2
如何删除表 1 中也包含在表 2 中的所有行?
因此,新的表 1 将是:
python - python中不同级别的反连接pandas数据帧
我有两个熊猫数据框,分别是 df1 和 df2。df1 有 6 个变量,df2 有 5 个变量。两个数据帧中的第一个变量都是字符串格式,铰孔是 int 格式。
我想通过使用两个数据帧的前 3 列来识别两个数据帧中不匹配的记录,并且必须将它们从 df1 数据帧中排除。
为此,我尝试了以下代码,但它为我抛出了 Nan 值,如果我删除 Nan 值,则将删除所需的数据。
输入数据:-
预期输出:-
句法:-
请任何人都可以帮助我解决这个问题。
提前致谢。
apache-spark - Spark数据集何时使用Except vs Left Anti Join
我想知道调用 except ( https://spark.apache.org/docs/2.1.0/api/java/org/apache/spark/sql/Dataset.html#except(org.apache. spark.sql.Dataset)并使用左反连接。到目前为止,我能看到的唯一区别是使用左反连接,两个数据集可以有不同的列。
sql - SQL 反连接删除优化
我在 postgres 数据库中有两个表,posts
并且users
. posts
有一个user_id
引用users.id
主键列的外键。两张桌子都很大。
我刚刚删除了一组随机用户(约占总用户的 80%),我想删除所有引用已删除用户的帖子,实际上是反加入和删除。这样做最有效的方法是什么?
目前我有这个:
有没有更有效的方法来做到这一点?
r - sparklyr antijoin 中的近似双重比较
我正在尝试对现有sparklyr
代码进行微小的更改;这些更改旨在提供相同的结果,只是代码应该更具可读性和效率。因此,我想确保获得相同的结果,这些结果已存储在hive
表格中。为此,我使用以下方法将新结果与旧结果进行比较anti_join
:
我没有得到 100% 的匹配,在查看了细节之后,我怀疑anti-join
在双打方面没有发挥应有的作用。似乎它可能会考虑实际上不是的不同值。
可重现的示例(但可能是从 spark 到 R 再返回到 spark 会改变情况):
r - 如何从两个数据框中删除不匹配的数据,以在 R 中创建一个新的数据框
我正在创建一个图表,将每个国家的预期寿命年龄和国家养老金年龄相关联。我使用网络抓取包从 2 个维基百科页面抓取 2 个数据集。
其中一个数据集包含“国家”列,另一个数据集包含“国家和地区”列。这是一个问题,因为两个数据集都需要合并,但由于“国家和地区”列中的区域而导致不平衡。
为了解决这个问题,我需要在合并数据集之前删除“国家和地区”中的区域,所以它是平衡的。我需要用“国家”从“国家和地区”中找到不匹配的数据,将其删除,然后用 2 个数据集创建一个数据框。
r - 在 tibble 中设置连续向量之间的差异(累积方式)
我想找到一种更短的方法来计算 tibble 中的分组向量之间的连续差异(不是 B 中的 A),其中每个差异都在组“x”的向量与所有先前组中的向量的串联之间。
我在 for 循环中找到了使用 anti_join 的解决方案,但我想知道是否有更简洁的方法。
换句话说,如果:
组 1:“a”、“b”
组 2:“a”、“c”
组 3:“b”、“d”
当我计算 group3 和 group1:2 之间的累积连续差异时,我应该得到:
组 3:“d”
因为“d”是唯一未包含在所有先前组中的元素。
c# - C# linq 是否支持“反连接”语义?
我用谷歌搜索了一会儿,没有找到直接的反连接语义示例。以 C# LINQ 为例,如何做到这一点?