我有一个约 100 个“文档”的非语言语料库,每个包含一个约 10k 个“单词”的序列(即我有一组约 100 个整数序列)。我可以学习尊重语料库中已知类的良好 doc2vec 嵌入。我现在有兴趣总结这些文档,以帮助解释哪些主题不仅代表每个文档,而且在类之间具有区分性。
我主要熟悉 TextRank 作为一种抽取式摘要方法,但这通常依赖于句子(即以句点结尾的子序列)作为底层节点排名算法的合理原子。就我而言,序列标记是事先不知道的,因为本身没有句子。
有没有考虑到这一点的总结方法?到目前为止,我已经尝试在所有 n-gram 上使用 TextRank 以获得固定的 n,但这排除了涉及不同长度标记的摘要,这在我的设置中恰好是至关重要的。例如,是否有任何多尺度汇总方法?