我是 Python 和 Scikit-learn 库的初学者。我目前需要从事一个 NLP 项目,该项目首先需要通过 One-Hot Encoding 表示一个大型语料库。我已经阅读了 Scikit-learn 关于 preprocessing.OneHotEncoder 的文档,但是,这似乎不是我对术语的理解。
基本上,这个想法类似于以下:
- 1000000 星期日;0100000 星期一;0010000 星期二;... 0000001 星期六;
如果语料库只有 7 个不同的单词,那么我只需要一个 7 位向量来表示每个单词。然后,一个完整的句子可以用所有向量的合取来表示,它是一个句子矩阵。但是,我在Python中尝试过,它似乎不起作用......
我怎样才能解决这个问题?我的语料库中有大量不同的单词。
顺便说一句,如果向量大部分都用零填充,我们可以使用 Scipy.Sparse 来缩小存储空间,例如 CSR。
因此,我的整个问题将是:
语料库中的句子如何用 OneHotEncoder 表示,并存储在 SparseMatrix 中?
感谢你们。