问题标签 [lsa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R LSA LSAFUN 结尾问题
我想使用genericSummary
package 中的函数LSAfun
。这是德语示例文本。
我的文本编码是“UTF-8”。实际上,这个示例文本的编码是“latin1”。因此我转换为 utf8
当我打电话
我收到以下错误:
有谁知道如何解决这个问题?
python - 如何仅检索与用户输入匹配的列表元素?
我需要从用户那里获取输入,并且只有那组单词应该在输入字符串出现的地方返回给我。例如,如果我搜索人,那么只有出现人的那些词组应该被检索为输出。
这是我的示例输出:
这是我的预期输出:
python - 如何从文件中仅检索名词并将它们作为数组传递给 LSA?
我只需要提取那些标签与程序的 pos-tags 变量匹配的单词,并将这些单词传递给 LSI 模型,但是当我打印名词时,我得到一个空列表。
这是我的名词文件示例输入:
这是我的示例代码:
java - 在Java中计算两个单词的概念和关系相似度
我正在根据这篇论文在 Java 中实现一个可读性公式。
我已经到了必须计算两个或多个单词的概念和关系相似性的地步。
他们说:
我们使用潜在语义分析 (LSA) 工具来计算单词相似度。LSA 可以从单词文档共现矩阵中获取语义信息,包括相似性。在扫描整个语料库的固定大小的移动窗口中计算单词/术语共现。使用 +-1 和 +-4 窗口大小的共现模型分别被认为是关系相似性和概念语义模型。
我试图查看 LSA 的一些实现,比如这个,但是找不到一种直接的方法来获得我想要的东西。
我应该有一个基于单词的矩阵,所以我尝试使用 WS4J 库来计算基于两个字符串数组的矩阵。
WS4J 也有一个方法calcRelatednessOfWords()
,但它得到的结果与论文中显示的不匹配。
有没有提供我想要的图书馆?或者谁能指出我正确的方向?
python - How to get the vector representation of a word using a trained SVD model
I have trained (fit and transform) a SVD model using 400 documents as part of my effort to build a LSA model. Here is my code:
Now, I want to measure the similarity of two sentences (whether from the same document collection or totally new) and I need to transform these two sentences into vectors. I want to do the transformation in my own way and I need to have the vector of each word in sentence.
How can I find the vector of a word using the lsa_model that I already trained?
And, more broadly speaking, does it make sense to build a LSA model using a collection of documents and then use the same model for measuring the similarity of some sentences from the same document collection?
cluster-analysis - LSA 和 K 表示在文档聚类中,结果打印不正确
我最近使用 LSA 然后 Kmeans 进行了一些文档聚类。但是,当我尝试打印每个集群中最重要的单词时,我得到了非常奇怪的结果,它打印的单词甚至不低于该集群。
下面是代码和输出:
然而,输出如下:
即使在大多数这些集群中,能力这个词也没有,有人能指出我做错了什么吗?
scikit-learn - 潜在语义分析:如何选择组件号来执行截断SVD
我正在练习使用 LSA 对安然数据集(所有电子邮件)进行分类。我的理解是要成功执行任何进一步的分类或聚类,我需要使用 TruncatedSVD 执行较低等级的近似以最大化方差。
我已经完成了我能想到的所有预处理,包括 1)删除所有标点符号 2)删除少于 2 个字符的单词 3)删除文本大小小于 1500 字节的文档(tfidf 对较长的文本效果更好) 4)删除停用词
但是,如果我将每个 SKlearn 建议的 LSA 组件设置为 100,我只能得到 35% 的方差(svd.explained_variance_ratio_.sum())。我尝试使用 component = 2000,并且可以得到 80%。(我在某处读到说需要按照建议获得 90% 的方差?)
所以我的问题是要执行一个成功的 LSA,1)如何测试和挑选组件的数量 2)高组件数量是否正常?3)我能做些什么来增加方差,同时保持组件数量低?
python - TruncatedSVD 中的解释方差
当我试图了解 LSA 时,我发现我无法使用 SVD 从 TruncatedSVD 重现结果。为什么这不起作用。
谢谢您的帮助。