我偶然发现了 text2vec 包,它在 R 中实现了词嵌入。我一直在成功地尝试它。但是,我一直在尝试在每个文档上实现词向量,就像我在 H2O(python) 中找到的一样https://github.com/h2oai/h2o-tutorials/blob/master/h2o-world-2017/nlp/AmazonReviews。 ipynb
在本教程的第 21 行中,对词向量进行平均,然后将其用作模型中的特征。
我相信问题不在于代码,而在于我们如何获取单词向量并将其分配给每个文档。为了将它们作为功能提供,我只是按照这里提到的教程进行操作。http://text2vec.org/glove.html