1

我正在使用包含事件信息片段的数据集。我的数据框看起来类似于:

index| event_description
----------------------
1    | concert with thousands of people
2    | people gathering 
3    | there was an event in the city and it was so much fun
...
8000 | very boring gathering

我的工作是根据它们的含义对这些事件进行聚类。我不知道应该有多少事件,这是无监督学习的工作。

为了继续进行 DBSCAN 聚类,我使用 GloVe(而不是 doc2Vec 等)将数据帧中的所有单词嵌入到向量中。

您如何将词向量转换为句子向量以进行聚类?

我已经阅读了这篇文章以及其他一些帖子和论文,它们使用了其他句子嵌入算法,而不是 GloVe 词嵌入。此外,InferSentGoogle 通用句子编码器等一些存储库也非常好,但是它们使用的是预训练的张量。

鉴于这些限制,我必须使用 GloVe 和数据帧训练的张量而不是预训练的张量,我怎样才能从词向量形成句子向量?

4

0 回答 0