0

假设任何屈折语言都有一个非常大的语料库。以下内容有意义吗?通过在这样的语料库上应用 LSA,具有相似概念的词在向量空间中会聚在一起,因此指代相同概念的变形词形式在理想情况下应该与其在空间中的引理相同。有了这样的假设,就不需要对查询或语料库进行任何词形还原或词干化。还是我完全错了?

4

1 回答 1

1

根据 LSA 的创始人的说法,词干提取是不必要的。不过,我认为文献中对此存在普遍分歧。我已经阅读了几篇论文,其中发现词干提取可以改善给定信息检索任务的结果。

一般来说,最近的研究表明词干提取对主题建模没有帮助,甚至可能会损害主题的连贯性。

于 2019-05-22T15:17:59.827 回答