0

我是翻译研究的博士生,目前正在撰写我的论文。我在我的论文中使用 LSA 相似性接口作为分析方法。我的背景是语言学而不是计算机科学。我试图找到一个简单的 LSA 文档分类工具,但我找不到任何工具。我试着和 Gensim 一起玩,我没有工作。我认为我的问题是将我的语料库(txt 文件)与 Gensim 工具链接以进行分析(我不知道如何执行此步骤)。如果有人可以帮助我进行分析或指导我使用任何工具或简单的教程来使用 Gensim 进行分析,我将不胜感激。

我想做以下事情:我想应用文档文档查询来从语料库中检索最相关的 5 个文档到查询文档。

  1. 我有 15 个查询文件
  2. 我有一个语料库(150 个文本)文本是短篇小说

我很绝望,我很犹豫在这里发布这个问题。我确信在翻译研究中应用 LSA 会增加这个领域,这让我更加坚持找到一种方法来进行我的分析。

4

1 回答 1

0

目前唯一真正简单、用户友好的 LSA 工具是http://lsa.colorado.edu/。不幸的是,它只是一个基于 Web 的工具,它不允许您在自己的语料库上训练 LSA。但是根据您的需要,这可能无关紧要。

如果我的理解正确,您需要 15 个查询文档和 150 个短篇故事中的每个文档之间的文档-文档相似度得分(总共 15*150=2250 相似度得分)。如果这些查询文档和短篇小说是英文的,那么您可以使用在许多 LSA 研究中使用的 TASA 语料库上训练的 LSA 版本,如下所示:

  • 访问http://lsa.colorado.edu/
  • 选择一对多比较
  • 在“正文”框中复制粘贴其中一个短篇小说,并在“要比较的文本”框中用空行分隔 15 个查询
  • 重复你的每个短篇小说。巨大的痛苦?是的。但如果你绝望...

如果你稍微用 Python 或 R 编程,其他 LSA 工具包括 http://clic.cimec.unitn.it/composes/toolkit/introduction.htmlhttp://cran.r-project.org/web/ packages/lsa/lsa.pdf,并且可以为您节省上述建议的体力劳动。另外,我知道您已经尝试过 Gensim,但是在http://radimrehurek.com/gensim/tutorial.html上有一个很好的教程,如果您还没有尝试过,可以尝试学习。

于 2014-12-28T11:18:14.813 回答