因此,来自 Python 的 sklearn 库的逻辑回归具有.fit()
将x_train
(特征)和y_train
(标签)作为参数来训练分类器的函数。
看起来x_train.shape = (number_of_samples, number_of_features)
对于 x_train 我应该使用提取的 xvector.scp 文件,我正在阅读如下:
b = kaldiio.load_scp('xvector.scp')
我可以像这样打印内容:
for file_id in b:
xvector = b[file_id]
print(xvector)
现在 b 变量就像一个字典,你可以得到对应 id 的 x 向量值。我想使用 sklearn Logistic Regression 对 x 向量进行分类,为了使用 .fit() 方法,我应该将数组作为参数传递。
我的问题是如何制作一个只包含 xvector 变量的数组?
PS:file_ids 大约是 100 万,每个 xvector 的长度为 512,对于数组来说太大了