问题标签 [latent-semantic-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现
我一直在使用Mahout 提供的和Hadoop 作业执行潜在语义分析SparseVectorsFromSequenceFiles
,这些作业运行 Map/Reduce 作业。我一直在尝试为这些在内存中运行的功能找到一个等效的实现,或者在单个线程中,或者最好在多个线程中。RowIdJob
RowSimilarityJob
有这样的事吗?
matlab - 如何对非常大的数据集进行潜在语义分析
我正在尝试对一个非常大的数据集(大约 50,000 个文档和超过 300,000 个单词/术语)运行 LSA 或主成分分析,以降低维度,以便我可以在二维中绘制文档。
我在 Python 和 MATLAB 中尝试过,但由于数据集的体积,我的系统在任一实例中都内存不足并崩溃。有谁知道我可以如何减少负载,或者做某种可以更快更有效地运行的近似 LSA/PCA?我的总体目标是在 300k 单词上进行大幅降维。
recommendation-engine - 如何使用矩阵分解生成推荐
我已经阅读了推荐系统中的矩阵分解(潜在因子模型)的一些论文,我可以实现该算法。我可以得到与 MovieLens 数据集上的论文类似的 RMSE 结果。
但是我发现,如果我尝试通过对预测评分进行排名来为每个用户生成一个 top-K(例如 K=10)推荐电影列表,似乎被认为是所有用户评分最高的电影是相同。
这只是它的工作原理还是我有什么问题?
analysis - 潜在语义分析 (LSA) 单值分解 (SVD) 理解
通过我对 LSI(机械工程背景)的适度理解,请耐心等待:
在 LSI 中执行 SVD 后,您有 3 个矩阵:
U、S 和 V 转置。
U 将单词与主题进行比较,S 是每个特征强度的一种度量。Vt 将主题与文档进行比较。
返回 SVD 之前的原始矩阵。如果不做太多(无)深入的代数,似乎:
返回逐项矩阵,该矩阵提供项之间的比较。即一个术语与其他术语的相关程度,一种比较单词而不是组件的DSM(设计结构矩阵)。我可能完全错了,但我在样本数据集上进行了尝试,结果似乎很有意义。但这可能只是偏见(我希望它起作用,所以我看到了我想要的)。由于文档受到保护,我无法发布结果。
不过我的问题是:这有意义吗?逻辑上?数学上?
感谢您的任何时间/回复。
python - 从网页中提取主题
我正在尝试学习一些机器学习,但不幸的是,无监督学习并没有很好地对待我,我希望 StackOverflow 的一些半监督学习能够帮助我!:)
我试图尽可能简单地从原始 HTML 中提取网页的主题。我拥有的是 10,000 个 HTML 文件的列表。我想在这个列表上运行一个程序,它将以 TSV 格式输出网页的 id(它的文件名)和网页的主题。
我已经查看了一些用于执行此操作的 API,并尝试使用 python 和 scikit-learn 来实现我自己的函数,但是,我确信有一些简单而有效的方法可以做到这一点,但我忽略了
我有的 :
我想要的是
运行的程序:
所以我们最终得到了一个 tsv 的形式
nlp - 在潜在语义分析中,你如何在截断奇异值后重新组合分解的矩阵?
我正在阅读矩阵分解和潜在语义索引(在线版 © 2009 Cambridge UP)
我试图了解如何减少矩阵中的维数。第 13 页上有一个示例,我正在尝试使用Python 的 numpy进行复制。
我们称原始出现矩阵“a”和三个SVD(奇异值分解)分解矩阵“U”、“S”和“V”。
我遇到的麻烦是,在我将“S”中较小的奇异值归零后,当我使用 numpy 将“U”、“S”和“V”相乘时,答案与 pdf 中给出的不同. 底部 3 行并非全为零。有趣的是,当我将“S”和“V”相乘时,我得到了正确的答案。
这有点令人惊讶,但将“S”和“V”相乘实际上是 Manning 和 Schutze 的《统计自然语言处理基础》一书所说的你必须做的事情。但这不是 pdf 在第 10 页中所说的你必须做的。
那么这里发生了什么?
machine-learning - LSA - 特征选择
我有这个文档的 SVD 分解
我已阅读此页面,但我不明白如何计算文档分离的最佳功能。
我知道:
S x Vt 给出了文档和特征之间的关系
U x S 给出了术语和特征之间的关系
但最佳特征选择的关键是什么?
nlp - 潜在语义分析如何处理语义
我已经通过LSA方法。据说LSA可以用于语义分析。但我不明白它在 LSA 中是如何工作的。谁能告诉我 LSA 如何处理语义。
nlp - 使用潜在语义分析来衡量段落相似度
我目前正在开发一个程序来根据其语义(含义)比较两段文本。我知道有诸如 lingpipe 之类的库提供了比较字符串距离的有用方法,但是我听说 LSA 是测量文本相似度的最佳方法。
我只是对使用 LSA 来测量文本相似性感到困惑。我知道这个过程是,使用 LSA,
我只是想知道...
A. 在 SVD 中,矩阵被缩减为 3 个更小的矩阵。那么这些较小的矩阵中的哪一个用于余弦距离测量?
B. 余弦距离通常应用于向量。因此,在将它们应用于矩阵的情况下,我假设迭代矩阵并在每 2 个向量之间测量余弦距离。然后假设所有这些距离的平均值是这两个矩阵之间的最终余弦距离?
我知道这是一个非常小众的话题,但我希望对这两个问题有所了解。谢谢
lsa - LSA 相似度接口
我是翻译研究的博士生,目前正在撰写我的论文。我在我的论文中使用 LSA 相似性接口作为分析方法。我的背景是语言学而不是计算机科学。我试图找到一个简单的 LSA 文档分类工具,但我找不到任何工具。我试着和 Gensim 一起玩,我没有工作。我认为我的问题是将我的语料库(txt 文件)与 Gensim 工具链接以进行分析(我不知道如何执行此步骤)。如果有人可以帮助我进行分析或指导我使用任何工具或简单的教程来使用 Gensim 进行分析,我将不胜感激。
我想做以下事情:我想应用文档文档查询来从语料库中检索最相关的 5 个文档到查询文档。
- 我有 15 个查询文件
- 我有一个语料库(150 个文本)文本是短篇小说
我很绝望,我很犹豫在这里发布这个问题。我确信在翻译研究中应用 LSA 会增加这个领域,这让我更加坚持找到一种方法来进行我的分析。