问题标签 [semi-join]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
109 浏览

r - 使用 semi_join 查找相似性但错误地返回无

我试图在两列之间找到相似的基因,以后我可以只使用相似的基因。下面是我的代码:

当我运行代码时,出现以下错误:

错误:by必需,因为数据源没有公共变量

这是错误的,因为当我打开时top100_1Betatop100_2Beta我至少可以看到前几个列出了完全相同的基因:ATP2A1、SLMAP、MEOX2……

我很困惑为什么它会返回没有共同点。任何帮助将不胜感激。谢谢!

0 投票
2 回答
227 浏览

mysql - MYSQL查询不同价格范围内的产品,没有重复

我正在尝试查询我的产品表,以便我的查询返回某个变体价格范围内的产品集——产品有许多变体,变体属于产品。我有以下查询正在运行,但速度很慢——查询需要 1.66 秒。

WHERE语句中,我尝试price在 SELECT 语句中检查子查询创建的值,但 MYSQL 告诉我这price是未定义的。这是SQL:

这是我从上面的 SQL 中得到的错误消息:

'where 子句'中的未知列'price'

我也尝试在表上使用一系列连接,variants但随后我得到了重复的产品返回。这是SQL

我想要的是从第一个 SQL 语句获得的查询结果,而不会影响性能。我想我可以INNER JOIN在变体表上编写 SQL 来过滤掉不正确价格的变体而不会得到重复的产品,但我无法确定如何。

有谁知道我如何在这里编写 SQL 以允许我查询某个变体价格范围内的产品,而不会返回重复的产品并且不会严重影响性能?

0 投票
1 回答
479 浏览

mysql - 对于 10gb 数据库大小和索引的 1 亿条记录,Mysql 查询仍然很慢

我有一个非常庞大的产品和用户数据集以及他们的使用时间。

大约有 1 亿行,占用大约 10 GB 的磁盘空间。

数据集按以下顺序排列:

我还添加了这样的索引,

假设我想找到所有购买产品(项目 1)的用户,然后找到他购买的所有其他项目。

此查询需要永远运行。

其次,我还想将用户 ID 11 4 和用户 ID 12 也带来了 4 等用户之间的所有常见项目相加,所以我想将 4 与计数 2 相加

我为此写了一个类似的查询:

这个脚本也需要无限的时间。

请帮忙,

谢谢你

0 投票
3 回答
1376 浏览

r - 连接数据但忽略缺失值

我在使用 dplyr 加入数据帧时遇到了一些麻烦,我想忽略 NA。

我拥有的数据很大,但简化版本如下所示:

我有一个想与 df 匹配的条目,例如:

因此,我想从 df 中获取与 df2 匹配的所有行,但应该忽略 NA。所以结果应该是这样的:

我试图用 semi_join 做到这一点,但到目前为止它没有工作:

结果是:

谁知道答案?

0 投票
1 回答
28 浏览

r - 按 ID 水平合并两个数据帧并仅保留第二个数据帧的匹配项

我有两个要水平合并的数据框:

我只想保留那些与列dat_a匹配dat_b的行ab.

所以最终的结果应该是这样的:

0 投票
1 回答
87 浏览

database - 使用半连接对查询进行去相关

我是查询优化的新手,如何在实现去相关的同时使用半连接我无法完全理解。

考虑查询

展示如何使用半连接操作的多集版本对上述查询进行去相关

0 投票
2 回答
756 浏览

sql - 半联接与子查询

半连接和子查询有什么区别?我目前正在 DataCamp 上学习这方面的课程,我很难区分这两者。

提前致谢。

0 投票
1 回答
182 浏览

mysql - 这是一个 MySQL 错误吗?

我正在对 MySQL 上的sakila 数据库8.0.17运行此查询:

这给出了0结果。但是如果我运行这个:

我得到了19结果,这是意料之中的。

基本上我用这个where条件包裹起来select * from,突然得到错误的结果。

据我了解,用任何表值包装select * from应该给出相同的结果。

我创造了这个小提琴

0 投票
3 回答
216 浏览

r - 如何通过字符串列半连接两个数据帧,其中一个以冒号分隔

我有两个数据框,dfa并且dfb

看起来像这样:

dfa是我感兴趣的基因列表:我想保留它们出现的dfb,注意数字(MUC1不是)。我的应该是这样的: MUC16new_df

我的问题是常规dplyr::semi_join()确实完全匹配,这没有考虑到dfb$gene_names可以包含用 . 分隔的基因这一事实"; "。意思是用这个例子,"MET"不保留。

我试图调查fuzzyjoin::regex_semi_join,但我不能让它做我想要的......

欢迎使用 tidyverse 解决方案。(也许有stringr?!)

编辑:后续问题...

我将如何进行倒数anti_join?简单地更改semi_joinanti_join这种方法是行不通的,因为该行在MET; BLEP不应该出现的时候出现了......

filter(gene_name == new_col)在使用提供的简单数据集之后添加一个anti_join,但如果我像这样扭曲它:

……然后就没有了。在这里和我的真实数据集中,dfa不包含分号,它只是一列单个基因名称。但是dfb包含了很多信息,以及分号的多种组合...

0 投票
1 回答
1168 浏览

python - 我想从一个数据框中选择其值存在/不存在于另一个数据框中的所有记录。如何使用 pyspark 数据框做到这一点?

我有两个 pyspark 数据框。我想从 vindf.tx_hash 中不存在其“哈希”的 voutdf 中选择所有记录

如何使用 pyspark 数据框执行此操作。?我尝试了半联接,但最终出现内存不足错误。