问题标签 [semi-join]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 semi_join 查找相似性但错误地返回无
我试图在两列之间找到相似的基因,以后我可以只使用相似的基因。下面是我的代码:
当我运行代码时,出现以下错误:
错误:
by
必需,因为数据源没有公共变量
这是错误的,因为当我打开时top100_1Beta
,top100_2Beta
我至少可以看到前几个列出了完全相同的基因:ATP2A1、SLMAP、MEOX2……
我很困惑为什么它会返回没有共同点。任何帮助将不胜感激。谢谢!
mysql - MYSQL查询不同价格范围内的产品,没有重复
我正在尝试查询我的产品表,以便我的查询返回某个变体价格范围内的产品集——产品有许多变体,变体属于产品。我有以下查询正在运行,但速度很慢——查询需要 1.66 秒。
在WHERE
语句中,我尝试price
在 SELECT 语句中检查子查询创建的值,但 MYSQL 告诉我这price
是未定义的。这是SQL:
这是我从上面的 SQL 中得到的错误消息:
'where 子句'中的未知列'price'
我也尝试在表上使用一系列连接,variants
但随后我得到了重复的产品返回。这是SQL
我想要的是从第一个 SQL 语句获得的查询结果,而不会影响性能。我想我可以INNER JOIN
在变体表上编写 SQL 来过滤掉不正确价格的变体而不会得到重复的产品,但我无法确定如何。
有谁知道我如何在这里编写 SQL 以允许我查询某个变体价格范围内的产品,而不会返回重复的产品并且不会严重影响性能?
mysql - 对于 10gb 数据库大小和索引的 1 亿条记录,Mysql 查询仍然很慢
我有一个非常庞大的产品和用户数据集以及他们的使用时间。
大约有 1 亿行,占用大约 10 GB 的磁盘空间。
数据集按以下顺序排列:
我还添加了这样的索引,
假设我想找到所有购买产品(项目 1)的用户,然后找到他购买的所有其他项目。
此查询需要永远运行。
其次,我还想将用户 ID 11 4 和用户 ID 12 也带来了 4 等用户之间的所有常见项目相加,所以我想将 4 与计数 2 相加
我为此写了一个类似的查询:
这个脚本也需要无限的时间。
请帮忙,
谢谢你
r - 连接数据但忽略缺失值
我在使用 dplyr 加入数据帧时遇到了一些麻烦,我想忽略 NA。
我拥有的数据很大,但简化版本如下所示:
我有一个想与 df 匹配的条目,例如:
因此,我想从 df 中获取与 df2 匹配的所有行,但应该忽略 NA。所以结果应该是这样的:
我试图用 semi_join 做到这一点,但到目前为止它没有工作:
结果是:
谁知道答案?
r - 按 ID 水平合并两个数据帧并仅保留第二个数据帧的匹配项
我有两个要水平合并的数据框:
我只想保留那些与列dat_a
匹配dat_b
的行a
和b
.
所以最终的结果应该是这样的:
database - 使用半连接对查询进行去相关
我是查询优化的新手,如何在实现去相关的同时使用半连接我无法完全理解。
考虑查询
展示如何使用半连接操作的多集版本对上述查询进行去相关
sql - 半联接与子查询
半连接和子查询有什么区别?我目前正在 DataCamp 上学习这方面的课程,我很难区分这两者。
提前致谢。
mysql - 这是一个 MySQL 错误吗?
我正在对 MySQL 上的sakila 数据库8.0.17
运行此查询:
这给出了0
结果。但是如果我运行这个:
我得到了19
结果,这是意料之中的。
基本上我用这个where
条件包裹起来select * from
,突然得到错误的结果。
据我了解,用任何表值包装select * from
应该给出相同的结果。
我创造了这个小提琴。
r - 如何通过字符串列半连接两个数据帧,其中一个以冒号分隔
我有两个数据框,dfa
并且dfb
:
看起来像这样:
dfa
是我感兴趣的基因列表:我想保留它们出现的行dfb
,注意数字(MUC1
不是)。我的应该是这样的: MUC16
new_df
我的问题是常规dplyr::semi_join()
确实完全匹配,这没有考虑到dfb$gene_names
可以包含用 . 分隔的基因这一事实"; "
。意思是用这个例子,"MET"
不保留。
我试图调查fuzzyjoin::regex_semi_join
,但我不能让它做我想要的......
欢迎使用 tidyverse 解决方案。(也许有stringr
?!)
编辑:后续问题...
我将如何进行倒数anti_join
?简单地更改semi_join
为anti_join
这种方法是行不通的,因为该行在MET; BLEP
不应该出现的时候出现了......
filter(gene_name == new_col)
在使用提供的简单数据集之后添加一个anti_join
,但如果我像这样扭曲它:
……然后就没有了。在这里和我的真实数据集中,dfa
不包含分号,它只是一列单个基因名称。但是dfb
包含了很多信息,以及分号的多种组合...
python - 我想从一个数据框中选择其值存在/不存在于另一个数据框中的所有记录。如何使用 pyspark 数据框做到这一点?
我有两个 pyspark 数据框。我想从 vindf.tx_hash 中不存在其“哈希”的 voutdf 中选择所有记录
如何使用 pyspark 数据框执行此操作。?我尝试了半联接,但最终出现内存不足错误。