nlp - 没有句子的“文档”中的文本摘要

翻译自：https://stackoverflow.com/questions/68667705 2021-08-05T13:40:44.920

47 次

我有一个约 100 个“文档”的非语言语料库，每个包含一个约 10k 个“单词”的序列（即我有一组约 100 个整数序列）。我可以学习尊重语料库中已知类的良好 doc2vec 嵌入。我现在有兴趣总结这些文档，以帮助解释哪些主题不仅代表每个文档，而且在类之间具有区分性。

我主要熟悉 TextRank 作为一种抽取式摘要方法，但这通常依赖于句子（即以句点结尾的子序列）作为底层节点排名算法的合理原子。就我而言，序列标记是事先不知道的，因为本身没有句子。

有没有考虑到这一点的总结方法？到目前为止，我已经尝试在所有 n-gram 上使用 TextRank 以获得固定的 n，但这排除了涉及不同长度标记的摘要，这在我的设置中恰好是至关重要的。例如，是否有任何多尺度汇总方法？

0 回答 0