问题标签 [lsa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
information-retrieval - 在 LSA 中形成查询向量
在执行术语-文档矩阵的 SVD 并获得缩减的秩矩阵后,各种来源都说明了以下缩减的查询向量公式。似乎很容易看出它是如何派生的。
然而,在这个链接中,查询向量被计算为相应缩减词向量的质心。我试图看看两者是否相同,但结果不同。
两者之间有什么区别以及使用其中任何一个的优点/缺点是什么?
keras - 将文本表示到深度学习的最佳工具
所以我想问你哪个是用于准备我的深度学习文本的最佳工具?
Word2Vec
, Glove
, Keras
, LSA
... 和有什么区别
r - 采用潜在语义分析 (lsa) 对象并对 R 中的新数据进行评分
我正在使用 R 中的 textmineR 运行潜在语义分析(LSA)。我希望得到的是按主题矩阵的文档,按文档的主题得分,我可以通过从我的 lsa 对象(下)调用 theta 来做到这一点。但是,我在获取创建的 lsa 对象并使用它对新数据集(即文档术语矩阵,dtm)进行评分时遇到了挑战,以便我可以将预先存在的主题结构应用于新数据。在下面的示例中,我创建了两个主题,然后当我尝试使用完全相同的 dtm(为了本示例而假装它是一个新文件)时,我收到以下错误:
"Error in predict.lsa_topic_model(model, dtm_m) : newdata must be a matrix of class dgCMatrix or a numeric vector"
我需要使用 lsa 对象来为新文本评分。我缺少一个简单的解决方法吗?我没有运气将矩阵强制为“dgCMatrix”。我实际上也不知道如何使用 lsa 等其他软件包来做到这一点。对此方法的任何帮助将不胜感激。
r - 为什么 text2vec 中的 LSA 每次都会产生不同的结果?
我在text2vec
包中使用潜在语义分析来生成词向量并使用转换来适应新数据,当我注意到一些奇怪的东西时,在相同数据上训练时空间没有对齐。
该方法似乎存在一些不一致(或随机性?)。也就是说,即使在完全相同的数据上重新运行 LSA 模型时,尽管输入相同,但得到的词向量也大不相同。环顾四周时,我只发现了这些旧的已关闭 github 问题链接 链接,并且在更新日志中提到了有关 LSA 正在清理的内容。我使用 movie_review 数据集和文档中的(稍作修改)代码重现了该行为:
这是怎么回事,它是一个错误,这是出于某种原因的预期行为,还是我有一个巨大的误解?(我有点希望后者......)。如果是有意的,为什么 quanteda 的行为会有所不同?
python - ValueError:形状(4,4)和(3,)未对齐:4(dim 1)!= 3(dim 0)
我使用 numpy 创建矩阵,它在下面显示脚本错误。
ValueError:形状(4,4)和(3,)未对齐:4(dim 1)!= 3(dim 0)
windows - hklm\Security 与 Security\Policy
我正在研究攻击者获取机器凭据的方式。我认为最常见的方法是转储
我能够弄清楚 SAM 中存储了哪些信息以及为什么要保存它,但无法弄清楚其他 2 个注册表之间的区别。
我现在已经阅读了很多手册,两者的解释似乎总是很相似,所以我不知道有什么区别
nlp - 句子之间的语义比较
我想做一个句子的语义比较。例如,我有一个输入:
“特朗普从来没有当过美国总统”
我在报纸上对此进行网络抓取并发现,假设这个结果:
“特朗普是美国总统”。
现在我需要对输入和结果(多个)进行语义比较,以确定给定的输入是否正确。
我在网上冲浪并找到了一些 API,如dandelion和paralleldots,但他们正在做句子比较,并给我90% 以上的分数。
谁能指导我如何彻底检查此问题或我可以用于此任务的任何开源 API?
另一个例子:
输入:
“特朗普是英国总统”
将输入与:
“特朗普是美国总统”
word-embedding - BERT 句子嵌入和 LSA 嵌入之间的差异
BERT 即服务(https://github.com/hanxiao/bert-as-service)允许提取句子级嵌入。假设我有一个预训练的 LSA 模型,它给了我一个 300 维的词向量,我想了解当我尝试比较两个句子的语义连贯性时,LSA 模型在哪种情况下会比 BERT 表现更好?
我想不出 LSA 更适合这个用例的原因——因为 LSA 只是一大袋单词矩阵的压缩。
python - 计算给定语音记录中的语义连贯性
我正在尝试计算给定段落/成绩单中的语义连贯性,即。如果有人在谈论某件事或主题时偏离了轨道 - 更具体地说是描述一张图片(图片可能有很多子细节)。
例如 -
成绩单1:我喜欢运动。世界上有这么多体育迷。
成绩单2:我喜欢运动。一种致命的病毒正在世界范围内传播。
Transcript 1 的语义连贯性应该很高,而 Transcript 2 的语义连贯性应该很低。我正在使用 BERT(bert-as-service)为句子生成句子嵌入。然后,我尝试通过计算句子嵌入向量之间的余弦相似度来比较给定转录本中的句子 i 和 i+1。我也尝试过使用滑动窗口,有和没有重叠来计算余弦相似度。
我遇到的问题是,两个句子的余弦相似度非常接近,例如上面的示例,而我希望两者之间的差异更大。
我正在考虑使用一个在维基百科数据上训练的 LSA 模型,看看我是否能看到更好的差异化。有没有更好的方法来做到这一点?