我将每个 XML 文档表示为 csr_matrix 格式的特征矩阵。现在我有大约 3000 个 XML 文档,我得到了一个 csr_matrices 列表。我想将这些矩阵中的每一个展平为特征向量,然后我想将所有这些特征向量组合成一个 csr_matrix,将所有 XML 文档表示为一个,其中每一行是一个文档,每一列是一个特征。
实现此目的的一种方法是通过此代码
X= csr_matrix([a.toarray().ravel().tolist() for a in ls])
其中 ls 是 csr_matrices 的列表,但是,这是非常低效的,因为有 3000 个文档,这简直就是崩溃!
换句话说,我的问题是,如何展平该列表“ls”中的每个 csr_matrix 而不必将其转换为数组,以及如何将展平的 csr_matrices 附加到另一个 csr_matrix 中。
请注意,我在 Scipy 中使用 python
提前致谢!