问题标签 [lsa]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3730 浏览

numpy - 奇异值分解:Jama、PColt 和 NumPy 的不同结果

我想对大型(稀疏)矩阵执行奇异值分解。为了选择最好(最准确)的库,我尝试使用不同的 Java 和 Python 库复制此处提供的 SVD 示例。奇怪的是,我对每个库都得到了不同的结果。

这是原始示例矩阵,它是分解的(US 和 VT)矩阵:

我尝试使用以下 Java 和 Python 库:Java:PColt、Jama Python:NumPy

以下是他们每个人的结果:

可以注意到 Jama 分解矩阵 (u & VT) 中每个元素的符号与原始示例中的符号相反。有趣的是,对于 PColt 和 Numpy,只有最后两列元素的符号被反转。倒置标志背后有什么具体原因吗?有人遇到过类似的差异吗?

以下是我使用的代码片段:Java

Python:

代码有问题吗?.

0 投票
1 回答
978 浏览

java - 概率潜在语义分析

我正在寻找 Java 中 PLSA 的任何教程或实现。此链接https://stackoverflow.com/questions/16396463/probabilistic-latent-semantic-analysis-indexing-in-java中有一个类似的问题 ,但是,这个查询膨胀没有回复。我看过 Thomas Hoffman 关于 PLSA 的演讲,但我似乎无法理解实施。任何帮助,将不胜感激。

0 投票
1 回答
7436 浏览

python - 潜在语义分析 (LSA) 教程

我正在尝试在此链接中使用 LSA 中的教程(编辑:2017 年 7 月。删除死链接)

下面是教程的代码:

我读了一遍又一遍,但我想不出什么。如果我执行代码,结果将如下

如何从这些矩阵中计算出 doc1 和 doc2 的相似性?在我自己编写的 tfidf 算法中,我得到了一个简单的浮点数和 3 个矩阵。有什么建议吗?

0 投票
0 回答
530 浏览

scikit-learn - 使用熵(对数熵)/ sklearn 转换 CountVectorizer

我想用 scikit-learn 尝试一些关于潜在语义分析 (LSA) 的变体。除了纯频率计数CountVectorizer()和 的加权结果外TfidfTransformer(),我还想通过熵(和对数熵)来测试加权(在原始论文中使用并报告表现非常好)。

关于如何进行的任何建议?我知道 Gensim 有一个实现(LogEntropyModel()),但更愿意坚持使用 scikit-learn。

0 投票
1 回答
643 浏览

lsa - LSA 相似度接口

我是翻译研究的博士生,目前正在撰写我的论文。我在我的论文中使用 LSA 相似性接口作为分析方法。我的背景是语言学而不是计算机科学。我试图找到一个简单的 LSA 文档分类工具,但我找不到任何工具。我试着和 Gensim 一起玩,我没有工作。我认为我的问题是将我的语料库(txt 文件)与 Gensim 工具链接以进行分析(我不知道如何执行此步骤)。如果有人可以帮助我进行分析或指导我使用任何工具或简单的教程来使用 Gensim 进行分析,我将不胜感激。

我想做以下事情:我想应用文档文档查询来从语料库中检索最相关的 5 个文档到查询文档。

  1. 我有 15 个查询文件
  2. 我有一个语料库(150 个文本)文本是短篇小说

我很绝望,我很犹豫在这里发布这个问题。我确信在翻译研究中应用 LSA 会增加这个领域,这让我更加坚持找到一种方法来进行我的分析。

0 投票
1 回答
1504 浏览

r - 在 R 包 lsa 中保留多少奇异值

我使用了 R 包 lsa 中的函数 lsa 来获取语义空间。输入是一个术语文档矩阵。问题是 lsa 默认使用的 dimcalc_share() 函数似乎是错误的。该函数的帮助页面称该函数“在奇异值的降序中找到它们的总和达到或超过指定份额的第一个位置”。我理解这些词,因为函数保留了第 n 个最大的奇异值,使得这些值的总和超过所有奇异值总和的一定百分比。该函数的源代码是

我对源代码有两个问题: 1. 为什么要加 1 到 d?2.如果第一个奇异值的分数大于份额,该函数将保留所有奇异值,而我认为该函数应该只保留第一个。

0 投票
1 回答
1474 浏览

c++ - Windows 密码过滤器 DLL 未加载

我正在尝试根据这篇 devx 文章中的示例在 C++ 中实现一个非常基本的 Windows 密码过滤器

然而,LSA 没有加载 DLL(msinfo32 中加载的模块中没有任何内容),尽管设置了适当的 reg 条目并且 DLL 被复制到 system32 并重新启动。这发生在 2003 x64 和 2008R2(显然也是 x64)上。到目前为止,我已经搜索了 stackoverflow 并实施了所有建议。

我正在使用VS2012。它设置为 x64 和 /MT(所以我不需要 redist 对吗?)并且我确保正确引用了 .def 文件。在dependency walker中,我可以看到正确导出的三个函数,尽管它说“由于隐式依赖模块中缺少导出函数,至少一个模块具有未解析的导入”。并声称 kernel32.dll 缺少一些导入(不确定这是否相关)。

如何调试 LSA 应该加载 DLL 时发生的情况?注意我不是开发人员,所以上面的一些内容相当模糊,尤其是在编译/链接和导出函数时的行为。

非常感谢

0 投票
0 回答
615 浏览

python - NLTK CorpusTerm 按文档矩阵

我将使用 CountVectorizer 和我从 Gutenberg 检索的大型语料库(或从 nltk 检索的任何数据集) tis corpus 中有电子书。我想将这些书中的所有句子收集在同一个列表中。类似的东西:listsentences=["SENTENCE#1" ,"SENTENCE#2" ,"SENTENCE#3" ...] 我不知道如何创建句子列表。非常感谢任何帮助!这就是我的代码的样子:

0 投票
1 回答
180 浏览

c# - 将用户添加到 Windows Server 2012 上的本地安全策略

使用LSA Functions Privileges and Impersonation中的代码时

在 Windows Server 2008R2 上,将用户作为服务策略添加到登录中可以正常工作。在 Windows Server 2012 上使用此代码时,它不起作用。函数“LsaAddAccountRights”返回一个无法通过“LsaNtStatusToWinError”转换为 Windows 错误的奇怪数字。返回代码类似于 1034061105409818720。每次运行相同的代码时,它都会返回不同的数字。有人可以提供一些帮助,因为我被卡住了吗?

0 投票
1 回答
436 浏览

r - 编码问题 R LSA

r 中的 lsa 不支持外语吗

我的代码

错误

或者我做错了什么

产生错误的文件是亚马逊的源页面