1

我目前正在尝试计算约 30k 行矩阵的协方差矩阵(所有值都在 [0,1] 范围内),并且需要很长时间(我已经让它运行了一个多小时,但它仍然没有'未完成)。

我在较小的示例(7k 行矩阵)中注意到的一件事是输出的值具有荒谬的有效数字(例如〜10 ^ 32)并且可能会减慢速度(并增加文件大小)-有什么办法吗限制这个?

我一直在一个简单的数据帧上使用 numpys 协方差方法:

import numpy as np
import pandas as pd
import sklearn as sk

df = pd.read_csv('gene_data/genetic_data25.csv')

df = df.set_index('ID_REF')
df = (df-df.min(axis = 0))/(df.max(axis = 0)-df.min(axis = 0))

cov = np.cov(df)

cov = pd.DataFrame(cov)

cov.to_csv('/gemnetics/cov_matrix.csv')
4

1 回答 1

1

由于我不熟悉遗传学,我会给你一般的指导方针并希望它有效。假设您将数据放在一个名为X30+k x 1k 的矩阵中。您实际上并不需要标准化您的数据(除非它对您无关紧要),但要计算协方差,您必须将其居中。然后你可以计算正确的特征向量:

Xp=X-X.mean(axis=0,keepdims=True)
k=Xp.T @ Xp
ev,R=np.linalg.eigh(k)
ev=ev[::-1]
R=R[:,::-1]

此时你应该查看特征值,看看它们是否有任何突然下降(这是 Scree 方法),我们称之为截止数n。如果不是,那么您只需要选择要保留的特征值的百分比。下一步将重建左特征向量:

L=X @ R[:,:n]

现在R.T告诉您哪些特征向量组合是重要的,特征向量 ( L) 是您的基因中最突出的组合。我希望这有帮助。

于 2018-07-27T15:39:55.873 回答