biopython - 如何加入由 Bio.SeqIO.index 创建的两个或多个字典？

Question

我希望能够加入存储在“indata”和“pairdata”中的两个“字典”，但是这段代码，

indata = SeqIO.index(infile, infmt)
pairdata = SeqIO.index(pairfile, infmt)
indata.update(pairdata)

产生以下错误：

indata.update(pairdata)
TypeError: update() takes exactly 1 argument (2 given)

我试过使用，

indata = SeqIO.to_dict(SeqIO.parse(infile, infmt))
pairdata = SeqIO.to_dict(SeqIO.parse(pairfile, infmt))
indata.update(pairdata)

这确实有效，但是生成的字典占用了太多内存，对于我拥有的 infile 和 pairfile 的大小来说不实用。

我探索的最后一个选项是：

indata = SeqIO.index_db(indexfile, [infile, pairfile], infmt)

效果很好，但是速度很慢。有谁知道我如何/是否可以成功加入上面第一个示例中的两个索引？

score 2 · Accepted Answer

SeqIO.index返回一个只读的类似字典的对象，因此update无法处理它（对于令人困惑的错误消息表示歉意；我刚刚检查了对主要 Biopython 存储库的修复）。

最好的方法是要么使用 index_db，它会更慢，但只需要索引文件一次，或者定义一个更高级别的对象，它就像你的多个文件的字典一样。这是一个简单的例子：

from Bio import SeqIO

class MultiIndexDict:
    def __init__(self, *indexes):
        self._indexes = indexes
    def __getitem__(self, key):
        for idx in self._indexes:
            try:
                return idx[key]
            except KeyError:
                pass
        raise KeyError("{0} not found".format(key))

indata = SeqIO.index("f001", "fasta")
pairdata = SeqIO.index("f002", "fasta")
combo = MultiIndexDict(indata, pairdata)

print combo['gi|3318709|pdb|1A91|'].description
print combo['gi|1348917|gb|G26685|G26685'].description
print combo["key_failure"]

score 1 · Accepted Answer

如果您不打算再次使用索引并且内存不是限制（在您的情况下两者似乎都是真的），您可以告诉 Bio.SeqIO.index_db(...) 使用内存中的 SQLite3 索引具有特殊索引名称“：memory：”，如下所示：

indata = SeqIO.index_db(":memory:", [infile, pairfile], infmt)

其中infile 和pairfile 是文件名，infmt 是它们在Bio.SeqIO 中定义的格式类型（例如“fasta”）。

这实际上是 Python 的 SQLite3 库的一个通用技巧。对于一小组文件，这应该比在磁盘上构建 SQLite 索引要快得多。

biopython - 如何加入由 Bio.SeqIO.index 创建的两个或多个字典？

2 回答 2

Related

Reference