我有大量的上下文向量,我想找到它们的平均余弦相似度。但是,通过整个集合计算它的效率不高。这就是为什么,我想从这个集合中随机抽取一个样本。
问题是每个上下文向量都解释了一个单词的某种程度的含义,所以我想做出一个平衡的选择(根据向量值)。我搜索并发现我可以使用蒙特卡洛方法。我还在这里找到了一个 Gibbs Sampler 示例:https ://darrenjw.wordpress.com/2011/07/16/gibbs-sampler-in-various-languages-revisited/
但是,我有点困惑。据我了解,该方法提供正态分布并生成双数。我不明白如何在我的情况下实现此方法。有人可以解释一下我该如何解决这个问题吗?
提前致谢。