问题标签 [anti-join]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 为什么当我减去时我的代码会删除行?
所以我有一些代码可以查看两个数据帧,并为某些分子组合减去一个名为“强度”的列值。但是,例如,如果分子不在另一个数据框中,由于某种原因,它完全摆脱了该行,不太清楚为什么。
blankdata3 和 data3 是我要减去的两个数据框。所以我减去一个分子的强度,例如
(data3 - blankdata3) = 减去数据
如果代码运行时在空白数据 3 中找不到分子,则代码完全摆脱了数据 3 中的分子,这是我不想要的。
r - dplyr top_n with group_by - as.list(x) 中的错误:试图从不是 S4 对象的对象(类“quosures”)中获取插槽“matsin”
我已经成功使用下面的代码很长一段时间了,但由于某种原因现在它被破坏了。虽然我已经加载了和以前一样的包。同时,R 或 dplyr 版本没有变化。
看起来 dplyr 的 top_n() 函数不再适用于管道。
请问有人有解决此错误消息的经验吗?非常感谢任何帮助或提示。
R:3.6.1;dplyr:0.8.3
追溯:
r - 如何通过字符串列半连接两个数据帧,其中一个以冒号分隔
我有两个数据框,dfa
并且dfb
:
看起来像这样:
dfa
是我感兴趣的基因列表:我想保留它们出现的行dfb
,注意数字(MUC1
不是)。我的应该是这样的: MUC16
new_df
我的问题是常规dplyr::semi_join()
确实完全匹配,这没有考虑到dfb$gene_names
可以包含用 . 分隔的基因这一事实"; "
。意思是用这个例子,"MET"
不保留。
我试图调查fuzzyjoin::regex_semi_join
,但我不能让它做我想要的......
欢迎使用 tidyverse 解决方案。(也许有stringr
?!)
编辑:后续问题...
我将如何进行倒数anti_join
?简单地更改semi_join
为anti_join
这种方法是行不通的,因为该行在MET; BLEP
不应该出现的时候出现了......
filter(gene_name == new_col)
在使用提供的简单数据集之后添加一个anti_join
,但如果我像这样扭曲它:
……然后就没有了。在这里和我的真实数据集中,dfa
不包含分号,它只是一列单个基因名称。但是dfb
包含了很多信息,以及分号的多种组合...
r - 具有公共列的多个数据框的主视图
我有如下三个数据框:
任何两个文件之间的差异可能如下:
我想创建一个主数据框,其中包含每个数据框中的所有值col1
并且col2
特定于每个数据框。如果不存在这样的值,它应该填充NA
.
上述输出的本质可以从上述anti_join
命令建立。但是,它并没有立即提供完整的图片。关于如何实现这一目标的任何想法?
编辑:对于 for 中的多个值col2
,col1
输出有点混乱。例如,A
有值4
, 3
。
它给出了以下输出。
输出中有趣的部分是:
而预期的输出是:
r - 在使用 setdiff 比较 R 中的两个数据框时使用多列作为标识符
我有两个数据框要比较。数据帧的截图如下所示
我要检查三件事:
- 第一次检查:数据 1 中存在但数据 2 中不存在的项目 [Item4; 子项4;子项1]
- 2nd Check:数据 1 中不存在但数据 2 中存在的项目 [Item6; 子项1;子项1]
- 第三次检查:两个列表中都存在的项目,但值已更改 [Item2; 子项5;子项1]
我使用 anti_join() 轻松完成了第一次和第二次检查
但是,对于第 3 次检查,我似乎无法锁定by=c("Property.1","Property.2","Property3")
当我执行以下操作时
我得到了不需要的附加行(来自检查 1 和检查 2)。
如何仅获取更改值的结果?
sql - Oracle - 查找丢失/未加入的记录
我在 Oracle 12 中有一个问题,最容易用传统的数据库设计方案来解释,即学生、班级和参加称为注册的课程的学生。我很理解这个模型。我有一个场景,我需要得到一个完整的列表,所有学生反对所有课程,以及他们是否正在上课......
让我们在这里使用这个表格设计......
因此,假设以下... 300 名学生和 15 个不同的班级... 注册表将显示有多少学生参加了多少课程... 我需要的是该信息加上所有未采取的组合...即我需要一个显示所有可能组合的报告(SQL 语句)...即 300 x 15,然后该行是否存在于注册表中...例如,输出应如下所示...
这也可以,我可能可以做一个 PIVOT 来获得上面的列表。
我如何填写缺失的数据,即学生和未参加的课程的组合......?
r - 如何找到数据框中的内容而不是R中的其他内容
我有两个数据框:代码和供应。代码(如下所示)由四个字段组成:状态、代码类型、代码、代码标题供应有 12 列,但其中三个是状态、代码类型和代码
下面是一个例子
从那里,我使用以下代码连接项目
我的问题是如何找出供应1中的状态、代码类型、代码的组合,而不是代码1。我会使用 excel 和 match 函数来执行此操作,但是有 190 万行,这超出了 Excel 的容量。
已经查看了有关 antijoin 的文档。但是,由于没有 ID 等通用字段,因此有点困惑。
r - anti_join 无法识别我的数据集中的 tidytext 停用词
我正在使用 R 中的 tidytext 方法从正文中删除停用词。 https://www.tidytextmining.com/tidytext.html
以下示例有效:
当我将此方法应用于我正在使用的数据时,它不会出错,但不会删除停用词。为了匹配停用词,文本结构是否需要发生一些不可见的事情?输出行看起来与停用词相同(降低、压扁等),但它们仍然存在……我正在处理受保护的数据,无法共享源材料。关于这个问题的任何建议或建议都会非常有帮助,谢谢!
mysql - MySQL 用于在 uuid 上加入表并省略两个表中存在的 uuid
我试图弄清楚如何最好地编写一个省略maintable
用户(uuid_user
)已经看到(seentable
)的返回行()的语句。用户已经看过的行存储在seentable
. 这是我的表格的简化版本。uuid
用作加入的密钥。uuid_user
标识特定用户看到的行。
不太工作: