问题标签 [latent-semantic-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1173 浏览

document-classification - 将 LSA/LSI 与朴素贝叶斯结合用于文档分类

一般来说,我是gensim包和向量空间模型的新手,我不确定我应该如何处理我的 LSA 输出。

为了简要概述我的目标,我想使用主题建模来增强朴素贝叶斯分类器,以改进评论的分类(正面或负面)。这是我一直在阅读的一篇很棒的论文,它塑造了我的想法,但让我对实施仍然有些困惑。

我已经有了朴素贝叶斯的工作代码——目前,我只是使用一元词袋,因为我的特征和标签要么是正面的,要么是负面的。

这是我的gensim代码

这是输出

任何建议或一般性意见将不胜感激。

0 投票
1 回答
1529 浏览

r - 在 R 中使用 lsa 包 - Ops.simple_triplet_matrix(m, 1) 中的错误:尺寸不兼容

我正在尝试学习在 R 中使用 lsa 包。我正在使用比下面的示例更大的数据集,但这是出于可重复性的目的(此人在他的网站上发布此代码的道具,这是一个很好的资源)。

我收到一条奇怪的错误消息,似乎无法解决:

下面是我正在修改的一些代码:

我可以毫无问题地生成语料库,并且可以将其转换为术语文档矩阵。当我定义 dt.mat.lsa 时触发错误。

回溯如下:

因此,我的主要问题是:

  1. 为什么我会收到此错误?
  2. 如何修复我的代码以避免此类错误?

提前感谢您在这里提供的任何帮助;这是我的第一篇文章,所以也欢迎对我的问题质量提供反馈!

0 投票
1 回答
185 浏览

cluster-analysis - 为潜在语义分析选择合适的聚类方法

我想对一些文本文档进行聚类以找到具有相同概念的文档。我已经使用潜在语义分析 (LSA) 完成了语义相似性,但我混淆了我应该为我的目的选择哪种聚类方法。谢谢

0 投票
1 回答
3128 浏览

r - R监督潜在狄利克雷分配包

我正在为 R 使用这个 LDA 包。具体来说,我正在尝试进行有监督的潜在狄利克雷分配 (slda)。在链接的包中,有一个slda.em函数。然而让我困惑的是它要求 alpha、eta 和方差参数。据我了解,我认为这些参数在模型中是未知数。所以我的问题是,包的作者的意思是说这些是对参数的初步猜测吗?如果是,似乎没有办法从运行的结果中访问它们slda.em

除了在算法中编码额外的 EM 步骤之外,是否有建议的方法来猜测这些参数的合理值?

0 投票
1 回答
618 浏览

python - gensim 生成 LSI 模型导致“Python 已停止工作”

因此,我正在尝试使用 gensim 来生成 LSI 模型以及按照教程的 corpus_lsi 。

我从我自己生成的语料库和字典开始。文档列表太小(9行=9文档),是gensim教程中提供的示例列表

但是,pythos 在到达生成 LSI_model 的行时就会崩溃。您可以在下面看到我的代码以及生成的输出

代码

输出

打印“生成 LSI 模型”后崩溃

有什么建议么 ?

我尝试过的其他事情

  • 将 python 版本更改为 python 2.6
  • 删除 gensim 并从 github 重新安装(而不是 conda)
0 投票
1 回答
954 浏览

python - 寻找文本中句子之间的语义连贯性

我需要一些帮助,根据这些链接link1link2中的代码编写一个程序,该程序将自动计算 a 之间的语义相似度。连续的句子和 b. 在整个文档(1000 个句子)中,句子由 1 个中间短语分隔。

提供的代码已经标记化并且可以找到语义相似性,但我不知道如何编写新代码来计算(并显示)整个文本(a,b)中连续和“干预”句子之间的语义相似性。我不不想一遍又一遍地做同样的事情。

0 投票
1 回答
1751 浏览

python - 文本中句子之间的语义相似性

我已经使用这里的材料和以前的论坛页面为一个程序编写了一些代码,该程序将自动计算整个文本中连续句子之间的语义相似度。这里是;

第一部分的代码是从第一个链接复制粘贴的,然后我在下面的 245 行后面放了这些东西。我在第 245 行之后删除了所有多余的部分。

我的文本文件格式如下;

红色酒精饮料。新鲜的橙汁。一本英文词典。黄色壁纸。

最后我想显示所有具有相似性的连续句子对,如下所示;

0 投票
0 回答
998 浏览

r - 使用 R 中的整个文档进行潜在文本分析(lsa 包)

我有一个代码,可以使用 R 中的 lsa 包成功对短引用执行潜在文本分析(见下文)。但是,我更愿意在较大文档中的文本上使用此方法。在每个引用空间中复制粘贴整个内容非常低效——它有效,但需要很长时间才能运行。有什么方法可以直接从数据库或数据框中导入每个“引文”(在这种情况下是文档)?如果是这样,它应该是什么格式?Txt 格式的文档在导入 R 时会自动分成段落,我不确定这是否与 lsa 包执行的分析兼容。

0 投票
1 回答
265 浏览

nlp - 潜在语义分析和词干

假设任何屈折语言都有一个非常大的语料库。以下内容有意义吗?通过在这样的语料库上应用 LSA,具有相似概念的词在向量空间中会聚在一起,因此指代相同概念的变形词形式在理想情况下应该与其在空间中的引理相同。有了这样的假设,就不需要对查询或语料库进行任何词形还原或词干化。还是我完全错了?

0 投票
1 回答
380 浏览

gensim - 使用 gensim 进行潜在语义索引

为了使用 gensim 的潜在语义索引方法,我想从一个小的“classique”示例开始,例如:

我的问题是:如何获得语料库迭代器'wiki_en_tfidf.mm'?我必须从某个地方下载它吗?我在互联网上搜索过,但没有找到任何东西。请帮忙 ?