0

因此,来自 Python 的 sklearn 库的逻辑回归具有.fit()x_train(特征)和y_train(标签)作为参数来训练分类器的函数。

看起来x_train.shape = (number_of_samples, number_of_features)

对于 x_train 我应该使用提取的 xvector.scp 文件,我正在阅读如下:

b = kaldiio.load_scp('xvector.scp')

我可以像这样打印内容:

for file_id in b:
  xvector = b[file_id]
  print(xvector)

现在 b 变量就像一个字典,你可以得到对应 id 的 x 向量值。我想使用 sklearn Logistic Regression 对 x 向量进行分类,为了使用 .fit() 方法,我应该将数组作为参数传递。

我的问题是如何制作一个只包含 xvector 变量的数组?

PS:file_ids 大约是 100 万,每个 xvector 的长度为 512,对于数组来说太大了

4

1 回答 1

0

您似乎正在尝试将字典存储到一个 numpy 数组中。如果字典很小,您可以直接将值存储为:

import numpy as np

x = np.array(list(b.values()))

但是,如果字典很大,这将遇到 OOM 问题。在这种情况下,您需要np.memmap按照此处的说明使用:https ://ipython-books.github.io/48-processing-large-numpy-arrays-with-memory-mapping/

本质上,您必须一次向数组添加一行,并在内存不足时刷新它。阵列直接存储在磁盘上,因此可以避免 OOM 问题。

于 2021-06-17T14:23:45.537 回答