问题标签 [lsa]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
254 浏览

hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现

我一直在使用Mahout 提供的和Hadoop 作业执行潜在语义分析SparseVectorsFromSequenceFiles,这些作业运行 Map/Reduce 作业。我一直在尝试为这些在内存中运行的功能找到一个等效的实现,或者在单个线程中,或者最好在多个线程中。RowIdJobRowSimilarityJob

有这样的事吗?

0 投票
1 回答
725 浏览

r - 如何避免 R 的 LSA 包中的 textmatrix 函数出错

我正在参加这个 Kaggle 比赛,我想知道是否有人熟悉R 中LSA 包中的textmatrix函数。

基本上,textmatrix函数接受一个目录作为参数,它将使用在指定目录中找到的所有文本文件创建一个 textmatrix。

不幸的是,textmatrix函数在遇到包含零项的文本文件时会抛出错误(例如,如果您使用停用词进行过滤,就会发生这种情况)。

有谁知道让 textmatrix忽略以零项结尾的文件的简单方法?或者是一种相对快速的方法来识别和删除这些文件?

蒂亚!

0 投票
1 回答
768 浏览

sparse-matrix - 稀疏矩阵的 pLSA 实现

我正在尝试实现 Thomas Hoffman (1999) 提出的 pLSA 算法。但是,我发现的所有实现都认为输入 term-doc 矩阵是完整的而不是稀疏的。由于我的输入矩阵非常大且稀疏,因此我想找出一种支持稀疏性的算法。你能帮我找一个吗?首选 Matlab 或 Java。

更新我发现 PennAspect http://www.cis.upenn.edu/~ungar/Datamining/software_dist/PennAspect/index.html 实际上用稀疏矩阵输入实现了 PLSA。

解决方案很简单。二维参差不齐的数组(每行长度不同的数组)可用于表示稀疏矩阵。

0 投票
2 回答
1205 浏览

lsa - 句子之间的相似度是如何用 LSA 计算的?

当计算单词之间的相似度时,我已经了解 LSA 是如何工作的。我正在使用网站 lsa.colorado.edu 中的 LSA,但我找不到如何计算句子或多个单词之间相似度的来源。它只是通过对所有成对相似性进行平均来完成的吗?

0 投票
2 回答
2403 浏览

routing - 为什么 OSPF LSA 序列中的 nuber 在 0x80000001 到 0x7FFFFFFF 范围内

为什么 OSPF LSA 序列号在 0x80000001 到 0x7FFFFFFF 范围内。我想这是出于某些历史原因,但无法谷歌搜索。

0 投票
2 回答
4073 浏览

r - Compute cosine similarities between documents in semantic space, using R-lsa package

I'm trying to cluster similar documents using the R language. As a first step, I compute the term-document matrix for my set of documents. Then I create the latent semantic space for the term-document matrix previously created. I decided to use use LSA in my expriment because the results of clustering using just the term-document matrix were awful . Is possible to build a dissimilarity matrix (with cosine measure) using the the LSA space created? I need to do this because the clustering algorithm that I'm using requires a dissimilarity matrix as input.

Here is my code:

I need to build a dissimilarity matrix (using cosine measure) from LSA space, so I can call the cluster algorithm as follows:

Any suggestions?

Thanks in advance!

0 投票
1 回答
325 浏览

installshield - InstallShield 调用 advapi32.dll 方法类型不匹配错误

我正在尝试从基本的 MSI InstallShield 代码调用 Advapi32.LsaOpenPolicy()。我已经成功调用了其他 avdapi32.dll 方法;但是 LsaOPenPolicy 抛出了不匹配的类型错误。

我的原型是:

窗口定义是:

我在 C++ 示例中注意到 ObjectAttriibute 结构被清零。所以我在 InstallShield 代码中做了类似的事情—— pArray 指向数组内容。

除了抛出的 80020005 错误之外,我找不到太多其他信息;我尝试了几种不同的论证结构,但我无法超越这一点。

我已经在 flexera 和 microsoft 论坛上发布了这个——但我在那里没有得到任何关注。(后代参考:flexera-linkmicrosoft-link

欢迎任何帮助或建议!

0 投票
1 回答
1501 浏览

r - 在R中的矩阵中的特定列对之间应用函数

我正在使用 R 中的 lsa 包生成一个矩阵。创建矩阵后,我想计算矩阵中特定文档对(列)之间的余弦相似度。

目前,我正在使用嵌套的 for 循环来执行此操作,而且速度非常慢。在下面的代码中,有 150个sourceID和 6413个targetID,总共进行了 961.950 次比较。在我的数字运算机上运行了一个半小时后,它只通过了大约 300k 的数字。

有关更多信息,sourceIDstargetIDs是列名称的向量,从包含这些名称的两个文件中加载。我想在所有源->目标对之间应用余弦函数。这些列由文档名称索引,该名称是一个字符串。

我确信使用apply 可以更快地做到这一点,但我无法理解它。

编辑:可重现的例子

产生(outputfile.txt):

0 投票
1 回答
2150 浏览

python - 使用潜在语义分析进行聚类

假设我有一个文档语料库并在其上运行 LSA 算法。如何使用应用 SVD 后获得的最终矩阵对出现在我的文档语料库中的所有单词进行语义聚类?维基百科说 LSA 可用于查找术语之间的关系。Python 中是否有任何可用的库可以帮助我完成基于 LSA 对单词进行语义聚类的任务?

0 投票
2 回答
983 浏览

c# - Windows 环境下 LSA\LSI 的随机 SVD

我正在开展一个项目,其中包括使用潜在语义分析 (LSA)。这需要使用奇异值分解 (SVD),有时用于大型数据集。是否有可用于 Windows\Visual Studio 环境的随机 SVD (rSVD) 实现?我看到了一个名为 redsvd 的项目,但它似乎只在 Linux 上受支持。