问题标签 [sequencing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
213 浏览

c++ - SeqAn C++ 库:具有相同数据的 bam 与 sam 的不同 rID 值,bam 由于名称存储的长度而导致断言失败

我正在使用 seqan 1.4.1 来读取 sam/bam 文件。我有一个来自相同数据的 sam 和 bam 文件(与 rn5 refseq 基因对齐)。奇怪的是,当我与 ensembl 基因对齐时,我没有得到这个错误。

我正在读取 sam/bam 文件 BamStream,但如果我下拉到较低级别的 Stream 方法,则会发生同样的错误。

我打印 length(bamStreamIn._nameStore) 和读取的每个 record.rID。这是我使用数据的 bam 文件版本时的输出:

这是我使用 sam 文件时的输出:

有趣的是,名称存储大小相同,但 rID 不同。知道为什么 rID 不同以及导致断言错误的原因是什么?

0 投票
1 回答
1198 浏览

c# - 沿道路动态排列 GPS 点

我将 GPS 点与索引一起存储——所以要在这个问题中引用这些点,它看起来像这样 GPS[0]、GPS[1],其中 GPS 是 GPS 位置,[n] 是GPS 位置数组。

以下是我将如何存储位置(在此示例中,数组仅包含 11 个位置):

GPS[0] = 道路起点 - 始终位于第一个索引处

GPS[10] = 路尽头 - 总是在最后一个索引处

GPS[ 1 - 9 ] = 道路起点和终点之间的点

注意:并非所有 [1 - 9] 点都被同时捕获,例如 GPS[1] 和 GPS[2] 可能在星期一捕获,GPS[3] 可能在星期三捕获,GPS[4 - 9]一个月后可能会被捕获。如果他们没有被捕获......他们会被忽略。

此外,GPS 位置可能被“乱序”捕获......我所说的“乱序”是指沿道路捕获点,但不一定按照您在旅行时遇到的相同顺序从头到尾的路上。

这导致我在算法中遇到问题:

(注意“MAP API”是任何具有映射 API 的软件/服务)

我正在寻找处理 MAP api 功能的 C# 示例代码

另一个注意事项...这不需要任何用户界面显示...

我可以使用纬度/经度...但是,我使用的 GPS 坐标并不那么重要...重要的是 MAP api 功能可以沿着道路行驶并确定一个点是否接近当前点.

谢谢

0 投票
2 回答
903 浏览

regex - 非常大的文件之间的 Grep 模式匹配太慢了

我在这方面花了太多时间,正在寻找建议。我的文件太大(对于感兴趣的人,来自 Illumina 测序运行的 FASTQ 文件)。我需要做的是匹配两个文件之间共有的模式,并将该行加上它下面的 3 行打印到两个单独的文件中,没有重复(存在于原始文件中)。Grep 做得很好,但文件大约 18GB,它们之间的匹配速度非常慢。我需要做的例子如下。

档案A:

您可以看到 3 个独特的标题,@以 3 行开头

文件B:

这里有 4 个标题,但只有 2 个是唯一的,因为其中一个重复了 3 次

我需要两个文件之间没有重复的公共标题加上它们下面的 3 行。每个文件中的顺序相同。

这是我到目前为止所拥有的:

结合

这只是两个文件之间的公共标题,没有重复。这就是我要的。现在我需要将这些标题与原始文件相匹配,并抓住它们下面的 3 行,但只有一次。

如果我使用 grep 我可以得到我想要的每个文件

文件A.Final

重复while循环以生成FileB.Final

这可行,但 FileA 和 FileB 约为 18GB,而我的组合文件约为 2GB。有人对我如何显着加快最后一步有任何建议吗?

0 投票
1 回答
600 浏览

biopython - Biopython SeqIO processing NNNNN in *.ab1 files

Thanks for your help. I apologize in advance if there is a function built into Biopython that handles this, I read the whole manual and couldn't find anything.

Goal: Read in a raw sequencing file (*.ab1) and process using sequence.seq.translate(11) However, I get this error - "Bio.Data.CodonTable.TranslationError: Codon 'NNN' is invalid"

My Solution: I added an additional table to the CodonTable and commented out the ambiguous checker in Bio.Data.CodonTable (had to do this to make it work)

ambiguous checker

Question 1: I would prefer not to edit the root CodonTable.py file. Any suggestions on how to avoid that?

Question 2: I really don't want to comment out the ambiguous checker. Can someone help me write an exception to the ambiguous checker that will ignore my new codon table?

0 投票
1 回答
297 浏览

scorm - 如何设计带有条件加载下一页的SCORM包

我是 SCORM 课程设计的新手。我有一个设计课程的要求如下

在第一页收集使用输入:你是学生吗?

如果是,加载学生练习如果不是,加载研究练习

我无法理解如何在 SCORM 中实现这一点。我使用 eXe XHTML 编辑器来设计课程包,然后将其作为 SCORM 1.2 导入。然后,为了验证我在 SCORM 云上加载了 hte 包。

有人可以指导我吗?

0 投票
2 回答
86 浏览

linux - 检测有序事件列表中的相似序列

我有一堆(数百万)小实验的日志。

每个日志都包含一个条目列表(数十到数百个)。每个条目是一个时间戳和一个事件 ID(有数千个事件 ID,每个可能在日志中出现多次):

我知道一个事件可能会在以后触发其他事件。

我正在研究这个数据集。我正在寻找在实验中经常发生的“稳定”事件序列。

有没有办法在不编写太多代码且不使用专有软件的情况下做到这一点?该解决方案应该具有足够的可扩展性,并且可以处理大型数据集。

我认为这个任务类似于生物信息学所做的——在 DNA 中寻找序列等。只有我的任务在一个字母表中包含四个以上的字母......(更新,感谢@JayInNyc:蛋白质组学处理比我更大的字母表。)

(注意,顺便说一句,我事先不知道我想要我的序列有多稳定和相似,最小序列长度是多少等。我正在研究数据集,并且必须在旅途中弄清楚这一点。)

无论如何,对我可以使用的方法/工具/库有什么建议吗?


更新:评论中问题的一些答案:

稳定序列:在实验中经常发现。(多久才够?还不知道。看来我需要计算链的顶部,并丢弃最稀有的。)

相似序列:看起来相似的序列。“根据您,序列'ABCD E'和'ABCE D'(序列上的微小差异)是否相似?序列'ABCD E'和'ABC 1 D E'(所选事件的发生顺序相同)是否也相似给你?” ——对这两个问题都是。更剧烈的突变可能也可以。同样,我希望能够计算出一个顶部并丢弃最不同的......

计时:我现在可以丢弃计时信息(但不能丢弃订单)。但是将它放在相似性指数公式中会很酷。


更新 2:预期输出。

最后,我想对最受欢迎的最长稳定链进行评级。所有三个因素的组合都应该对评分的计算产生影响。

显然,这种评级中的链更像是足够相似的链的集群。

链簇的合成示例:

其他:

(或者我现在没有想到的任何变体。)

所以,最终输出会是这样的(在这个例子中数字是完全随机的):

0 投票
0 回答
84 浏览

linux - 在大数据中查找最长的公共序列

我有一堆(数百万)小实验的日志。

每个日志都包含一个条目列表(数十到数百个)。每个条目都是一个时间戳和一个事件 ID(有数千个唯一的事件 ID,每个事件 ID 都可能在日志中出现多次)。这是一个实验的日志示例:

我需要找到许多实验中常见的序列。

一个序列是多个(至少两个)事件 ID,它们彼此跟随:

共同序列是可以在至少两个日志中找到的序列。日志

有一个共同的顺序:

(显然,我在这里寻找最长的公共序列。)

我对经常发生的大序列感兴趣。我事先不知道截止值。比如说,我需要在前 1000 个(或前 30%)中按长度计算前 10 个(或者,也许是前 100 个序列)。(此标准是随机给出的,几乎可以任意更改以简化数据处理。)

关于如何以可扩展的方式执行此操作的任何建议?

我希望尽量减少我拥有的代码量,但我不想使用专有程序来获得解决方案。

...我认为在生物信息学中解决了一个有点类似的问题。但是他们的字母比我短得多:-)错了!蛋白质组学处理更大的字母!(感谢@JayInNyc)

0 投票
3 回答
1191 浏览

copy - waf 将文件从源代码树复制到构建树

我有以下片段,将文件按原样复制到构建目录:

我看到这条规则,虽然(从印刷品中)受到影响,但副本似乎没有发生!我也将源代码更改为使用make_node如图所示,在waf 书5.3.3节中的示例中,仍然没有运气!我在这里遗漏了一些明显的东西吗!?

另外,在此之后我有一些规则,它们依赖于复制的文件,我尝试添加一个干预

如果此副本成功,我希望排序将起作用

0 投票
1 回答
711 浏览

bioinformatics - 为什么 fastx_trimmer 认为我的 fastq 文件是未知文件格式?

我有一些来自 Illumina NextSeq 运行的 .fastq 文件。许多序列具有使映射它们复杂化的poly-A束。我想删除所有十个连续 A 的序列,并且一直在尝试使用 fastx_clipper 这样做,如下所示:

这导致了以下错误消息:

我不完全确定这意味着什么。我使用 head 查看了 fastq 文件:

据我所知,这看起来像是一个完全正常的 fastq 格式文件。谁能解释导致此错误的原因?谢谢!

0 投票
1 回答
617 浏览

r - 使用 R 进行下一代测序 vcf 文件

我是 R 初学者。我正在使用 R 分析我的大型下一代测序 vcf 文件并且遇到了一些困难。我已将非常大的 vcf 文件导入为数据框(2446824 个变量,共 177 个变量),并用我感兴趣的 3 个样本(2446824 个变量,共 29 个变量)创建了一个子集。

我现在希望进一步减小尺寸(将行数减少到 200000 左右)。我一直在尝试使用 grep,但无法使其正常工作。我得到的错误是

这是我正在使用的文件的一个小示例部分。

有两种不同的方法可以减少此数据集中的行数:

代码 1。如果 $Run.Sample1 或 $Run.Sample2 或 $Run.Sample3 包含“0/1”或“1/0”或“1/1”,则保留整行

代码 2。如果 $Run.Sample1 或 $Run.Sample2 包含“0/1”或“1/0”或“1/1”且 $Run.Sample3 包含“0/0”,则保留整行

我想从代码 1 中得到的结果是:

我想从代码 2 中得到的结果是:

非常感谢您的帮助

凯利