1

我正在研究主题建模,我很好奇在这种情况下究竟什么是短文本?例如,如果有一篇研究论文,研究论文的标题和摘要是否会被视为短文本?

4

1 回答 1

0

我正在研究主题建模,我很好奇在这种情况下短文本到底是什么?

最近关于短文本主题建模的调查论文(Qiang 等人)提到了评估此类模型的几个数据集:搜索片段、StackOverflow 问题标题、推文等。这些数据集中的文档平均有 5-14 个单词,最多 14-37 个单词。

例如,如果有一篇研究论文,研究论文的标题和摘要是否会被视为短文本?

可能有更大长度的论文摘要。摘要通常有 200 或 300 个字,甚至更多。

应该提到的第二个论点是,一些短文本主题建模技术假设每个文本只有一个主题(例如,在Yin & Wang的论文中)。我认为摘要中可能包含多个主题。因此,一些假设每个文档一个主题的模型可能在论文摘要上表现不佳。

于 2020-06-22T04:48:42.910 回答