问题标签 [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
4228 浏览

c++ - 潜在狄利克雷分配 (LDA) 实现

有人知道是否存在用于 Win32 平台的 LDA 算法(无论是库还是应用程序)的一些实现?也许用 C/C++ 或其他可以编译的语言?

0 投票
1 回答
1898 浏览

nlp - 潜在狄利克雷分配与文档聚类的关系

我想澄清潜在狄利克雷分配(LDA)和文档聚类的一般任务之间的关系。

LDA 分析倾向于输出每个文档的主题比例。如果我的理解是正确的,这不是文档聚类的直接结果。但是,我们可以将此概率比例视为每个文档的特征表示。之后,我们可以根据 LDA 分析生成的特征配置调用其他已建立的聚类方法。

我的理解正确吗?谢谢。

0 投票
0 回答
3492 浏览

nlp - 斯坦福主题建模工具箱中的标记 LDA 推理

我正在使用 Stanford Topic Modeling Toolbox v.0.3 进行 LabeledLDA。我能够使用提供的文档( example-6-llda-learn.scala ) 训练 LabeledLDA 模型。如何预测新数据集的标签?

我尝试使用类似于example-3-lda-infer.scala的代码来推断新数据集,但没有成功。谁能帮我解决这个问题?

编辑 这是我用于推理的代码,但它不起作用:

此代码在执行时java -Xmx3g -jar tmt-0.3.3.jar infer_llda.scala会产生以下错误:

在@Skarab 的帮助下,这里是 Labeled LDA 学习和推理的解决方案:

0 投票
1 回答
1524 浏览

python - python 模块已安装并识别,但无法在我的代码或 Ubuntu 上的 python 2.7.1 解释器上导入它

我一直试图让 python C 模块启动并运行。我正在从Here安装 deltaLDA 模块。我按照 REAMDE 文件中指定的说明进行操作。像往常一样,我写道:

我猜一切都按预期进行,我得到了这个输出:

但是当我尝试导入 deltaLDA 模块时,我收到以下错误:

如果我使用 help('modules') 或 pip freeze 命令检查已安装的模块,我可以在两个列表中找到 deltaLDA,但我无法导入它。请任何帮助将不胜感激。

谢谢!

更新: 我还验证了 sys.path 并且'/usr/local/lib/python2.7/dist-packages'它就在上面。如果我尝试从 deltaLDA 导入 * 就像from deltaLDA import *我得到同样的错误。在解释器上也尝试dir(deltaLDA)得到相同的“无模块名称”错误。也许 deltaLDA 模块有问题?有人可以尝试安装吗?

固定的

我检查了 dist 包上 .so 和 egg-info 文件的权限。它们不可读,我不知道为什么。我刚刚运行了一个 sudo chmod 777 文件,现在它正在工作!

0 投票
1 回答
714 浏览

hadoop - Mahout LDA 给出 FileNotFound 异常

我创建了我的术语向量,如下所述

然后我跑

我得到:

MAHOUT-JOB:/home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 11/09/04 16:28:59 INFO common.AbstractJob:命令行参数:{ --endPhase=2147483647, --input=/home/ben/Scripts/eipi/termvecs, --maxIter=-1, --numTopics=2, --numWords=100, --output=/home/ben/Scripts /eipi/lda_working,--startPhase=0,--tempDir=temp,--topicSmoothing=-1.0} 11/09/04 16:29:00 信息 lda.LDADriver:LDA 迭代 1 11/09/04 16:29 :01 INFO input.FileInputFormat:要处理的总输入路径:4 11/09/04 16:29:01 INFO mapred.JobClient:清理暂存区文件:/tmp/hadoop-ben/mapred/staging/ben692167368/。 staging/job_local_0001 线程“主”java.io.FileNotFoundException 中的异常:文件文件:/home/ben/Scripts/eipi/termvecs/tokenized-documents/data 不存在。在 org.apache.hadoop.fs.RawLocalFileSystem。

没错,那个文件不存在。我应该如何创建它?

0 投票
1 回答
1122 浏览

yahoo - 雅虎!LDA 实施问题

全部,

我一直在一组文档上运行 Y!LDA (https://github.com/shravanmn/Yahoo_LDA),结果看起来很棒(或者至少是我所期望的)。现在我想使用生成的主题对语料库执行反向查询。有谁知道运行 learntopics 可执行文件后生成的 3 个人类可读文本文件是否是该库的最终输出?如果是这样,那是我需要解析来执行我的查询吗?在这一点上,我有点耸耸肩……

谢谢,亚当

0 投票
1 回答
413 浏览

mahout - Mahout:如何转换 SparseVector 格式的自定义文档以使用 LDA

我有一组文档,其中每一行都有一定数量的字符串,用“\t|\t”分隔。每个字符串(之间可能包含空格)是一个不可分割的字典项。现在我必须使用 LDA 来查找这些文档之间关于每个字典单词(我的词汇中的字符串)的相关性。

请指导我如何将这些文档转换为备用矢量格式,然后如何在它们上应用 LDA?

0 投票
4 回答
3223 浏览

nlp - 将每行一个文档转换为 Blei 的 lda-c/dtm 格式以进行主题建模?

我正在为一些研究做潜在的狄利克雷分析并不断遇到问题。大多数 lda 软件要求文档为 doclines 格式,即 CSV 或其他分隔文件,其中每一行代表整个文档。但是,Blei 的 lda-c和动态主题模型软件要求数据格式为:[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]where[M]是文档中唯一术语的数量,与每个术语关联的 [count] 是该术语在文档中出现的次数。请注意,这[term_1]是一个索引该术语的整数;它不是一个字符串。

有谁知道可以让我快速转换为这种格式的实用程序?谢谢你。

0 投票
4 回答
6080 浏览

nlp - LDA 如何给出一致的结果?

流行的主题模型 Latent Dirichlet Allocation (LDA),当用于从语料库中提取主题时,会返回在字典单词上具有不同概率分布的不同主题。

而潜在语义索引(LSI)在每次迭代后给出相同的主题和相同的分布。

实际上,LDA 被广泛用于提取主题。如果每次分类都返回不同的主题分布,LDA 如何保持一致性?

考虑这个简单的例子。取文档样本,其中 D 表示文档:

每行代表一个文档。在上述语料库中,LDA 模型用于从文档中生成主题。Gensim 用于 LDA,执行批量 LDA,其中选择的主题数为 4,通过数为 20。

现在在原始语料库上执行批量 LDA,20 次通过后生成的主题是:

现在批量 LDA 再次在相同的原始语料库上执行,在这种情况下生成的主题是:

在这两种情况下,每个主题中的单词分布都不相同。事实上,词的分布从来都不一样。

那么,如果 LDA 在 LSI 等主题中没有相同的词分布,它如何有效地工作呢?

0 投票
2 回答
2066 浏览

algorithm - LDA 和主题模型

我已经研究了几个星期的LDA和Topic模型。但是由于我的数学能力较差,我无法完全理解它的内部算法。我使用了GibbsLDA实现,输入了很多文档,并将主题编号设置为100,我得到了一个名为“final.theta”的文件,其中存储了每个文档中每个主题的主题比例。这个结果很好,我可以使用主题比例做很多其他事情。但是当我在 LDA 上尝试 Blei 的 C 语言实现时,我只得到了一个名为 final.gamma 的文件,但我不知道如何将这个文件转换为主题比例样式。谁能帮我。而且我了解到LDA模型有很多改进版本(例如CTM,HLDA),如果我能找到一个类似于LDA的主题模型,我的意思是当我输入很多文档时,它可以直接输出文档中的主题比例.