预先感谢您的帮助...
我想从过滤的多态站点创建一个二进制矩阵。我有 fasta 格式的 WGS 程序集,每个隔离序列一个文件(总共 131 个 fasta 文件)。
例如,fasta 文件包含x 个元素,每个元素的长度不同。使用包 seqinr 读取文件,如下所示,节点数对应于每个文件中的元素数;
fasta1$Node_1_length_179262_cov_53.4208_ID_3720:类“SeqFastadna”在... fasta1$Node_2_length_151612_cov_41.7317_ID_3726:类“SeqFastadna”在...
我还有一个 excel 文档,其中包含 filters_polymorphic_sites(在 wgMLST 分析中发现的多态基因座,所有基因座都被过滤掉了)(由 Gubbins 执行)。例如隔离1:CGTGAGCCGCGG-AGCCAATAGGGTCAGTGCGGTCGCTGCGGGGTGAACGGCGCAAGCTTTGTCACGCCGGATGGAAGTATGGCCCAGAATTGTTTTTTTATGCGGGCGGGGCTGGCACGAGAAACGATGC
隔离 2:CGTGAGCCGCGG-AGCCAATAGGGTCAGTGCGGTCGCTGCGGGGTGAACGGCGCAAGCTTTGTCACACCGGATGGAAGTATGGCCCAGAATTGTTTTTTTATTCGGGCGGGGCTGGCACAAGAAGCGATGC
我更喜欢在 R 中执行此操作,因此如果您可以建议一个 R 包,那将是惊人的,但是欢迎所有建议。
非常感谢!!