我正在使用 t-SNE 从更高维数据集(在本例中为 30 维)进行 2D 投影以进行可视化,并且我对 perplexity 超参数有疑问。
我使用 t-SNE 已经有一段时间了,以前只在小于 1000 个数据点的较小数据集上使用它,其中建议的5-50(van der Maaten 和 Hinton)的困惑度足以显示底层数据结构。
目前,我正在处理一个包含 340,000 个数据点的数据集,并认为由于困惑度会影响数据的本地与非本地表示,更多的数据点将需要比 50 高得多的困惑度(特别是如果数据不是高度隔离的)在高维空间中)。
有没有人有在具有大量数据点(> 100k)的数据集上设置最佳困惑度的经验?
我真的很想听听您的经验以及您使用哪些方法来确定最佳困惑度(或最佳困惑度范围)。
一篇有趣的文章表明,最佳困惑遵循一个简单的幂律 ( ~N^0.5 ),有兴趣知道其他人对此有何看法吗?
谢谢你的帮助