问题标签 [semi-join]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

35 问题

0 投票

2 回答

109 浏览

r - 使用 semi_join 查找相似性但错误地返回无

我试图在两列之间找到相似的基因，以后我可以只使用相似的基因。下面是我的代码：

当我运行代码时，出现以下错误：

错误：by必需，因为数据源没有公共变量

这是错误的，因为当我打开时top100_1Beta，top100_2Beta我至少可以看到前几个列出了完全相同的基因：ATP2A1、SLMAP、MEOX2……

我很困惑为什么它会返回没有共同点。任何帮助将不胜感激。谢谢！

r dataframe dplyr semi-join

2018-11-29T23:53:51.653

0 投票

2 回答

227 浏览

mysql - MYSQL查询不同价格范围内的产品，没有重复

我正在尝试查询我的产品表，以便我的查询返回某个变体价格范围内的产品集——产品有许多变体，变体属于产品。我有以下查询正在运行，但速度很慢——查询需要 1.66 秒。

在WHERE语句中，我尝试price在 SELECT 语句中检查子查询创建的值，但 MYSQL 告诉我这price是未定义的。这是SQL：

这是我从上面的 SQL 中得到的错误消息：

'where 子句'中的未知列'price'

我也尝试在表上使用一系列连接，variants但随后我得到了重复的产品返回。这是SQL

我想要的是从第一个 SQL 语句获得的查询结果，而不会影响性能。我想我可以INNER JOIN在变体表上编写 SQL 来过滤掉不正确价格的变体而不会得到重复的产品，但我无法确定如何。

有谁知道我如何在这里编写 SQL 以允许我查询某个变体价格范围内的产品，而不会返回重复的产品并且不会严重影响性能？

mysql semi-join

2019-01-14T15:07:35.537

0 投票

1 回答

479 浏览

mysql - 对于 10gb 数据库大小和索引的 1 亿条记录，Mysql 查询仍然很慢

我有一个非常庞大的产品和用户数据集以及他们的使用时间。

大约有 1 亿行，占用大约 10 GB 的磁盘空间。

数据集按以下顺序排列：

我还添加了这样的索引，

假设我想找到所有购买产品（项目 1）的用户，然后找到他购买的所有其他项目。

此查询需要永远运行。

其次，我还想将用户 ID 11 4 和用户 ID 12 也带来了 4 等用户之间的所有常见项目相加，所以我想将 4 与计数 2 相加

我为此写了一个类似的查询：

这个脚本也需要无限的时间。

请帮忙，

谢谢你

mysql database mariadb query-optimization semi-join

2019-01-20T14:50:44.560

0 投票

3 回答

1376 浏览

r - 连接数据但忽略缺失值

我在使用 dplyr 加入数据帧时遇到了一些麻烦，我想忽略 NA。

我拥有的数据很大，但简化版本如下所示：

我有一个想与 df 匹配的条目，例如：

因此，我想从 df 中获取与 df2 匹配的所有行，但应该忽略 NA。所以结果应该是这样的：

我试图用 semi_join 做到这一点，但到目前为止它没有工作：

结果是：

谁知道答案？

r dplyr na semi-join

2019-03-29T18:52:42.670

0 投票

1 回答

28 浏览

r - 按 ID 水平合并两个数据帧并仅保留第二个数据帧的匹配项

我有两个要水平合并的数据框：

我只想保留那些与列dat_a匹配dat_b的行a和b.

所以最终的结果应该是这样的：

r join semi-join

2019-04-08T16:51:14.413

0 投票

1 回答

87 浏览

database - 使用半连接对查询进行去相关

我是查询优化的新手，如何在实现去相关的同时使用半连接我无法完全理解。

考虑查询

展示如何使用半连接操作的多集版本对上述查询进行去相关

database multiset semi-join

2019-04-22T13:28:20.413

0 投票

2 回答

756 浏览

sql - 半联接与子查询

半连接和子查询有什么区别？我目前正在 DataCamp 上学习这方面的课程，我很难区分这两者。

提前致谢。

sql database join subquery semi-join

2019-10-11T20:58:34.023

0 投票

1 回答

182 浏览

mysql - 这是一个 MySQL 错误吗？

我正在对 MySQL 上的sakila 数据库8.0.17运行此查询：

这给出了0结果。但是如果我运行这个：

我得到了19结果，这是意料之中的。

基本上我用这个where条件包裹起来select * from，突然得到错误的结果。

据我了解，用任何表值包装select * from应该给出相同的结果。

我创造了这个小提琴。

mysql semi-join

2019-11-02T16:48:24.247

0 投票

3 回答

216 浏览

r - 如何通过字符串列半连接两个数据帧，其中一个以冒号分隔

我有两个数据框，dfa并且dfb：

看起来像这样：

dfa是我感兴趣的基因列表：我想保留它们出现的行dfb，注意数字（MUC1不是）。我的应该是这样的： MUC16new_df

我的问题是常规dplyr::semi_join()确实完全匹配，这没有考虑到dfb$gene_names可以包含用 . 分隔的基因这一事实"; "。意思是用这个例子，"MET"不保留。

我试图调查fuzzyjoin::regex_semi_join，但我不能让它做我想要的......

欢迎使用 tidyverse 解决方案。（也许有stringr？！）

编辑：后续问题...

我将如何进行倒数anti_join？简单地更改semi_join为anti_join这种方法是行不通的，因为该行在MET; BLEP不应该出现的时候出现了......

filter(gene_name == new_col)在使用提供的简单数据集之后添加一个anti_join，但如果我像这样扭曲它：

……然后就没有了。在这里和我的真实数据集中，dfa不包含分号，它只是一列单个基因名称。但是dfb包含了很多信息，以及分号的多种组合...

r dplyr fuzzyjoin anti-join semi-join

2019-11-13T15:01:57.650

0 投票

1 回答

1168 浏览

python - 我想从一个数据框中选择其值存在/不存在于另一个数据框中的所有记录。如何使用 pyspark 数据框做到这一点？

我有两个 pyspark 数据框。我想从 vindf.tx_hash 中不存在其“哈希”的 voutdf 中选择所有记录

如何使用 pyspark 数据框执行此操作。？我尝试了半联接，但最终出现内存不足错误。

python pyspark pyspark-dataframes semi-join

2019-12-04T08:50:42.213

1 2 3 4 5 6 7 8 9 10

问题标签 [semi-join]

Reference