问题标签 [anti-join]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
47 浏览

r - 为什么当我减去时我的代码会删除行?

所以我有一些代码可以查看两个数据帧,并为某些分子组合减去一个名为“强度”的列值。但是,例如,如果分子不在另一个数据框中,由于某种原因,它完全摆脱了该行,不太清楚为什么。

blankdata3 和 data3 是我要减去的两个数据框。所以我减去一个分子的强度,例如

(data3 - blankdata3) = 减去数据

如果代码运行时在空白数据 3 中找不到分子,则代码完全摆脱了数据 3 中的分子,这是我不想要的。

0 投票
2 回答
245 浏览

r - dplyr top_n with group_by - as.list(x) 中的错误:试图从不是 S4 对象的对象(类“quosures”)中获取插槽“matsin”

我已经成功使用下面的代码很长一段时间了,但由于某种原因现在它被破坏了。虽然我已经加载了和以前一样的包。同时,R 或 dplyr 版本没有变化。

看起来 dplyr 的 top_n() 函数不再适用于管道。

请问有人有解决此错误消息的经验吗?非常感谢任何帮助或提示。

R:3.6.1;dplyr:0.8.3

追溯:

0 投票
3 回答
216 浏览

r - 如何通过字符串列半连接两个数据帧,其中一个以冒号分隔

我有两个数据框,dfa并且dfb

看起来像这样:

dfa是我感兴趣的基因列表:我想保留它们出现的dfb,注意数字(MUC1不是)。我的应该是这样的: MUC16new_df

我的问题是常规dplyr::semi_join()确实完全匹配,这没有考虑到dfb$gene_names可以包含用 . 分隔的基因这一事实"; "。意思是用这个例子,"MET"不保留。

我试图调查fuzzyjoin::regex_semi_join,但我不能让它做我想要的......

欢迎使用 tidyverse 解决方案。(也许有stringr?!)

编辑:后续问题...

我将如何进行倒数anti_join?简单地更改semi_joinanti_join这种方法是行不通的,因为该行在MET; BLEP不应该出现的时候出现了......

filter(gene_name == new_col)在使用提供的简单数据集之后添加一个anti_join,但如果我像这样扭曲它:

……然后就没有了。在这里和我的真实数据集中,dfa不包含分号,它只是一列单个基因名称。但是dfb包含了很多信息,以及分号的多种组合...

0 投票
2 回答
70 浏览

r - 具有公共列的多个数据框的主视图

我有如下三个数据框:

任何两个文件之间的差异可能如下:

我想创建一个主数据框,其中包含每个数据框中的所有值col1 并且col2特定于每个数据框。如果不存在这样的值,它应该填充NA.

上述输出的本质可以从上述anti_join命令建立。但是,它并没有立即提供完整的图片。关于如何实现这一目标的任何想法?

编辑:对于 for 中的多个值col2col1输出有点混乱。例如,A有值4, 3

它给出了以下输出。

输出中有趣的部分是:

而预期的输出是:

0 投票
1 回答
104 浏览

r - 在使用 setdiff 比较 R 中的两个数据框时使用多列作为标识符

我有两个数据框要比较。数据帧的截图如下所示

数据 1

在此处输入图像描述

我要检查三件事:

  1. 第一次检查:数据 1 中存在但数据 2 中不存在的项目 [Item4; 子项4;子项1]
  2. 2nd Check:数据 1 中不存在但数据 2 中存在的项目 [Item6; 子项1;子项1]
  3. 第三次检查:两个列表中都存在的项目,但值已更改 [Item2; 子项5;子项1]

我使用 anti_join() 轻松完成了第一次和第二次检查

但是,对于第 3 次检查,我似乎无法锁定by=c("Property.1","Property.2","Property3")

当我执行以下操作时

设置差异1

设置差异2

我得到了不需要的附加行(来自检查 1 和检查 2)。

如何仅获取更改值的结果?

0 投票
2 回答
36 浏览

sql - Oracle - 查找丢失/未加入的记录

我在 Oracle 12 中有一个问题,最容易用传统的数据库设计方案来解释,即学生、班级和参加称为注册的课程的学生。我很理解这个模型。我有一个场景,我需要得到一个完整的列表,所有学生反对所有课程,以及他们是否正在上课......

让我们在这里使用这个表格设计......

因此,假设以下... 300 名学生和 15 个不同的班级... 注册表将显示有多少学生参加了多少课程... 我需要的是该信息加上所有未采取的组合...即我需要一个显示所有可能组合的报告(SQL 语句)...即 300 x 15,然后该行是否存在于注册表中...例如,输出应如下所示...

这也可以,我可能可以做一个 PIVOT 来获得上面的列表。

我如何填写缺失的数据,即学生和未参加的课程的组合......?

0 投票
2 回答
54 浏览

r - 如何找到数据框中的内容而不是R中的其他内容

我有两个数据框:代码和供应。代码(如下所示)由四个字段组成:状态、代码类型、代码、代码标题供应有 12 列,但其中三个是状态、代码类型和代码

下面是一个例子

从那里,我使用以下代码连接项目

我的问题是如何找出供应1中的状态、代码类型、代码的组合,而不是代码1。我会使用 excel 和 match 函数来执行此操作,但是有 190 万行,这超出了 Excel 的容量。

已经查看了有关 antijoin 的文档。但是,由于没有 ID 等通用字段,因此有点困惑。

0 投票
1 回答
87 浏览

sql - 具有多个键的 SQL 反连接

我想在两个表上实现反连接,但使用两个键,以便结果是表 A 中不包含表 B 中的 [key_1, key_2] 组合的所有行。如何在 SQL 中编写此查询?

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

0 投票
1 回答
113 浏览

r - anti_join 无法识别我的数据集中的 tidytext 停用词

我正在使用 R 中的 tidytext 方法从正文中删除停用词。 https://www.tidytextmining.com/tidytext.html

以下示例有效:

当我将此方法应用于我正在使用的数据时,它不会出错,但不会删除停用词。为了匹配停用词,文本结构是否需要发生一些不可见的事情?输出行看起来与停用词相同(降低、压扁等),但它们仍然存在……我正在处理受保护的数据,无法共享源材料。关于这个问题的任何建议或建议都会非常有帮助,谢谢!

0 投票
1 回答
69 浏览

mysql - MySQL 用于在 uuid 上加入表并省略两个表中存在的 uuid

我试图弄清楚如何最好地编写一个省略maintable用户(uuid_user)已经看到(seentable)的返回行()的语句。用户已经看过的行存储在seentable. 这是我的表格的简化版本。uuid用作加入的密钥。uuid_user标识特定用户看到的行。

不太工作: