我有以下格式的基因组测序文件:
染色体名称(字符串) | 位置 (int) | 读数(整数)
所有染色体的数据都存储在一个文件中,我希望
- 将文件拆分为单独的染色体数据文件;
- 将染色体名称(例如“chr1”、“x”)转换为整数。
我怎么能用熊猫做到这一点?
import pandas as pd
df = pd.read_csv('sample.txt', delimiter='\t', header=None)
数据看起来像这样
0 chr1 3000573 0
1 chr1 3000574 3
2 chr2 3000725 1
3 chr2 3000726 4
4 chr3 3000900 1
5 chr3 3000901 0
我还可以通过染色体标签 chr1、chr2、...重新索引数据框