问题标签 [pairwise]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 将成对距离表转换为仅两列中个人的距离列表
我想将成对距离表(2 列中的观察值)转换为列出个人的表(1 列中的观察值)。本质上,关于成对关系的信息将丢失(无论如何这与我的分析无关),并且它们各自行的距离值需要加倍。
我可以用这段代码分隔字符串:
但是不知道如何继续将表格重新排列成更少的列。所有搜索结果都只显示与成对表相关的解决方案。
这是一个示例数据集:
需要注意的重要一点是,我也对每个观察字符串中包含的“gr#”感兴趣。
基本上我想要一个遵循这种形式的表格:
r - 如何有效地识别重复的有序对
我正在处理在不同列中包含原始 ID 和目标 ID 的起点-终点 (OD) 数据。有时聚合相同的 OD 对很重要,只是交换了起点和终点。
OD 数据如下所示:
在上面的例子中,第一行和最后一行可以被认为是同一对,除了方向相反。挑战在于如何有效地识别它们是重复的。
我创建了一个包stplanr,它可以回答这个问题,如下面的可重现示例所示:
由reprex 包(v0.3.0)于 2019 年 7 月 27 日创建
这种方法的问题是对于大型数据集来说速度很慢。
我已经研究过从矩阵中的每一列中获取 Min 的最快方法?这表明这pmin
是在多列(不是 2 列)中获取最小值的最有效方法,我们已经在使用它。
与删除重复组合(不考虑顺序)不同,这个问题是关于仅 2 列和效率的重复识别。删除重复组合(无论顺序如何)中发布的解决方案似乎比以下时序中显示的最慢解决方案要慢。
比这更快的解决方案是szudzik_pairing
函数,它由我的同事 Malcolm Morgan 创建,基于Matthew Szudzik 开发的方法。
我们已经尝试了每种方法,Szudzik 方法确实看起来更快,但我想知道:有没有更有效的方法(在任何语言中,但最好在 R 中实现)?
这是我们所做的一个快速可重复的示例,包括一个显示时间的简单基准:
由reprex 包(v0.3.0)于 2019 年 7 月 27 日创建
python - 多 FASTA 文件序列的成对比对
我有一个多 FASTA 文件,其中包含来自下一代测序的 10 000 多个 fasta 序列,我想将每个序列与文件内的每个序列进行成对比对,并将所有结果存储在同一个新文件中以执行聚类分析后。下面写了 FASTA 序列的示例和我用 python 执行成对序列比对的代码。
FASTA 序列
请忽略第一行,因为它包含序列的描述摘要。
我的代码
问题
我想知道如何修改它以循环整个多 FASTA 文件,而不仅仅是一个代码序列。另外:如何根据需要有效地存储结果。
r - 使用 emmeans 对“混合”类模型进行事后比较不起作用
我运行了以下混合模型:
现在,我想使用emmeans 对probability_simple 和letter_position 执行所有成对比较。但是,在尝试运行时(在引入库(emmeans)之后:
我收到以下错误:
但是,根据文档,emmeans 应该支持执行的混合模型。混合模型是 afex 包的一部分,他们提到应该支持混合对象。
有什么建议么?
r - 使用唯一的列值对在数据框中生成二元标识符
我想为双边贸易流数据帧(以 、 和交易格式编码)生成一组二元标识符,from
以便to
我amount
可以使用这些标识符进行进一步的统计分析。
下面提供了我的示例数据,我从中提取并识别了涉及美国的数据中的独特国家对。
下一步是从原始trade_flow
数据帧from
的( 它应该类似于下面的格式,其中每个唯一的二元组都被识别并编码为唯一的数值。如果有人可以帮助我,我将不胜感激。to
dyad
trade_flow
r - 为无序对生成唯一的二元标识符
我正在处理的数据帧以二元格式编码,其中每个观察(即行)包含一个源节点(from
)和一个目标节点(to
)以及其他一些二元协变量(例如二元相关性corr
)。
为简单起见,我想将每个 dyad 视为无序并为每个 dyad 生成一个唯一标识符,如下面的(即df1
):
其中 dyad AB/BA、AD/DA 被视为相同的对,并分配有相同的 dyad 标识符。虽然从原始数据中提取无序对的列表很容易,但很难将它们映射到原始数据帧以生成无序的二元标识符。有人可以对此提供一些见解吗?
r - 用于 wilcoxon 检验的两个 Stat 函数之间的区别
我知道 stats::wilcox.test 和 stats::pairwise.wilcox.test 之间的主要区别是计算 p.adjust 值。该值仅由 stats::pairwise.wilcox.test 一步计算。但是当我收到以下代码错误时,有些东西是有线的。我希望得到相同的结果,但它得到了组大小的错误?!
python - Given an array find element pairs whose sum is equal to the given sum and return the sum of their indices
Hey guys as you've read in the question i am trying to find the element pairs in an array equal to the given sum and return the sum of their respective indices.
I was able to return the element pairs for the given sum but failed to return the sum of their indices. Here is my code:
My output:
This is what i need to do further:
2 + 5 = 7 → Indices 2 + 5 = 7;
3 + 4 = 7 → Indices 3 + 1 = 4;
7 + 4 = 11 → Return 11;
Thanks in Advance!
r - R:将大型数据帧转换为成对相关矩阵
我有以下形式的数据:
它报告了一堆“组”的每个“事物”的“分数”。
我想创建相关矩阵,该矩阵根据各组分数的相关性显示所有“事物”的成对分数相关性:
例如,事物“a”和事物“b”之间相关性的基础数据将是:
实际上,唯一组的数量约为 1,000,事物的数量约为 10,000,因此我需要一种比蛮力 for 循环更有效的方法。
我不需要得到的相关矩阵在单个矩阵中,甚至不需要在矩阵本身中(即,它可以是一组具有三列“ thing_1 thing_2 corr
”的数据集)。
r - 通过成对对齐在 R 中对齐多个文件
我在一个文件中有 15 个 fasta 格式的蛋白质序列。我必须对它们进行全局和局部的成对对齐,然后生成一个 15x15 的距离得分矩阵来构建树状图。
但是当我这样做时,即一个序列不与自身对齐,我得到 NA 结果。此外,AxB 给出 12131 分数,但 BxA 给出 NA。因此R不能构建系统发育树。
我应该怎么办?
我将此脚本用于循环,但它仅以一种方式读取: