问题标签 [pairwise]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
112 浏览

r - 将成对距离表转换为仅两列中个人的距离列表

我想将成对距离表(2 列中的观察值)转换为列出个人的表(1 列中的观察值)。本质上,关于成对关系的信息将丢失(无论如何这与我的分析无关),并且它们各自行的距离值需要加倍。

我可以用这段代码分隔字符串:

但是不知道如何继续将表格重新排列成更少的列。所有搜索结果都只显示与成对表相关的解决方案。

这是一个示例数据集:

需要注意的重要一点是,我也对每个观察字符串中包含的“gr#”感兴趣。

基本上我想要一个遵循这种形式的表格:

0 投票
1 回答
319 浏览

r - 如何有效地识别重复的有序对

我正在处理在不同列中包含原始 ID 和目标 ID 的起点-终点 (OD) 数据。有时聚合相同的 OD 对很重要,只是交换了起点和终点。

OD 数据如下所示:

在上面的例子中,第一行和最后一行可以被认为是同一对,除了方向相反。挑战在于如何有效地识别它们是重复的。

我创建了一个包stplanr,它可以回答这个问题,如下面的可重现示例所示:

reprex 包(v0.3.0)于 2019 年 7 月 27 日创建

这种方法的问题是对于大型数据集来说速度很慢。

我已经研究过从矩阵中的每一列中获取 Min 的最快方法?这表明这pmin是在多列(不是 2 列)中获取最小值的最有效方法,我们已经在使用它。

删除重复组合(不考虑顺序)不同,这个问题是关于仅 2 列和效率的重复识别。删除重复组合(无论顺序如何)中发布的解决方案似乎比以下时序中显示的最慢解决方案要慢。

比这更快的解决方案是szudzik_pairing函数,它由我的同事 Malcolm Morgan 创建,基于Matthew Szudzik 开发的方法。

我们已经尝试了每种方法,Szudzik 方法确实看起来更快,但我想知道:有没有更有效的方法(在任何语言中,但最好在 R 中实现)?

这是我们所做的一个快速可重复的示例,包括一个显示时间的简单基准:

reprex 包(v0.3.0)于 2019 年 7 月 27 日创建

0 投票
1 回答
1167 浏览

python - 多 FASTA 文件序列的成对比对

我有一个多 FASTA 文件,其中包含来自下一代测序的 10 000 多个 fasta 序列,我想将每个序列与文件内的每个序列进行成对比对,并将所有结果存储在同一个新文件中以执行聚类分析后。下面写了 FASTA 序列的示例和我用 python 执行成对序列比对的代码。

FASTA 序列

请忽略第一行,因为它包含序列的描述摘要。

我的代码

问题

我想知道如何修改它以循环整个多 FASTA 文件,而不仅仅是一个代码序列。另外:如何根据需要有效地存储结果。

0 投票
1 回答
163 浏览

r - 使用 emmeans 对“混合”类模型进行事后比较不起作用

我运行了以下混合模型:

现在,我想使用emmeans 对probability_simple 和letter_position 执行所有成对比较。但是,在尝试运行时(在引入库(emmeans)之后:

我收到以下错误:

但是,根据文档,emmeans 应该支持执行的混合模型。混合模型是 afex 包的一部分,他们提到应该支持混合对象。

有什么建议么?

0 投票
2 回答
183 浏览

r - 使用唯一的列值对在数据框中生成二元标识符

我想为双边贸易流数据帧(以 、 和交易格式编码)生成一组二元标识符,from以便toamount可以使用这些标识符进行进一步的统计分析。

下面提供了我的示例数据,我从中提取并识别了涉及美国的数据中的独特国家对。

下一步是从原始trade_flow数据帧from的( 它应该类似于下面的格式,其中每个唯一的二元组都被识别并编码为唯一的数值。如果有人可以帮助我,我将不胜感激。todyadtrade_flow

0 投票
2 回答
145 浏览

r - 为无序对生成唯一的二元标识符

我正在处理的数据帧以二元格式编码,其中每个观察(即行)包含一个源节点(from)和一个目标节点(to)以及其他一些二元协变量(例如二元相关性corr)。

为简单起见,我想将每个 dyad 视为无序并为每个 dyad 生成一个唯一标识符,如下面的(即df1):

其中 dyad AB/BA、AD/DA 被视为相同的对,并分配有相同的 dyad 标识符。虽然从原始数据中提取无序对的列表很容易,但很难将它们映射到原始数据帧以生成无序的二元标识符。有人可以对此提供一些见解吗?

0 投票
1 回答
66 浏览

r - 用于 wilcoxon 检验的两个 Stat 函数之间的区别

我知道 stats::wilcox.test 和 stats::pairwise.wilcox.test 之间的主要区别是计算 p.adjust 值。该值仅由 stats::pairwise.wilcox.test 一步计算。但是当我收到以下代码错误时,有些东西是有线的。我希望得到相同的结果,但它得到了组大小的错误?!

0 投票
3 回答
166 浏览

python - Given an array find element pairs whose sum is equal to the given sum and return the sum of their indices

Hey guys as you've read in the question i am trying to find the element pairs in an array equal to the given sum and return the sum of their respective indices.

I was able to return the element pairs for the given sum but failed to return the sum of their indices. Here is my code:

My output:

This is what i need to do further:

2 + 5 = 7 → Indices 2 + 5 = 7;

3 + 4 = 7 → Indices 3 + 1 = 4;

7 + 4 = 11 → Return 11;

Thanks in Advance!

0 投票
1 回答
514 浏览

r - R:将大型数据帧转换为成对相关矩阵

我有以下形式的数据:

它报告了一堆“组”的每个“事物”的“分数”。

我想创建相关矩阵,该矩阵根据各组分数的相关性显示所有“事物”的成对分数相关性:

例如,事物“a”和事物“b”之间相关性的基础数据将是:

实际上,唯一组的数量约为 1,000,事物的数量约为 10,000,因此我需要一种比蛮力 for 循环更有效的方法。

我不需要得到的相关矩阵在单个矩阵中,甚至不需要在矩阵本身中(即,它可以是一组具有三列“ thing_1 thing_2 corr”的数据集)。

0 投票
2 回答
607 浏览

r - 通过成对对齐在 R 中对齐多个文件

我在一个文件中有 15 个 fasta 格式的蛋白质序列。我必须对它们进行全局和局部的成对对齐,然后生成一个 15x15 的距离得分矩阵来构建树状图。

但是当我这样做时,即一个序列不与自身对齐,我得到 NA 结果。此外,AxB 给出 12131 分数,但 BxA 给出 NA。因此R不能构建系统发育树。

我应该怎么办?

我将此脚本用于循环,但它仅以一种方式读取: