问题标签 [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lda - 潜在狄利克雷分配解决方案示例
我正在尝试了解潜在狄利克雷分配(LDA)。我有机器学习和概率论的基本知识,并且基于这篇博客文章http://goo.gl/ccPvE,我能够开发 LDA 背后的直觉。但是,我仍然没有完全理解其中的各种计算。我想知道有人可以向我展示使用非常小的语料库的计算(比如说 3-5 个句子和 2-3 个主题)。
lda - LDA 主题建模 - 训练和测试
我已经阅读了 LDA,并且我了解当一个人输入一组文档时如何生成主题的数学原理。
参考资料说,LDA 是一种算法,给定一组文档,仅此而已(无需监督),可以发现该集合中文档表达的“主题”。因此,通过使用 LDA 算法和吉布斯采样器(或变分贝叶斯),我可以输入一组文档,作为输出,我可以获得主题。每个主题都是一组具有指定概率的术语。
我不明白的是,如果以上是真的,那为什么很多主题建模教程都在谈论将数据集分为训练集和测试集呢?
谁能解释一下 LDA 如何用于训练模型的步骤(基本概念),然后可以用来分析另一个测试数据集?
mahout - LDA Mahout 只有一个主题
我正在尝试按照 Mahout In Action 书中的说明在路透社数据上使用 LDA 的示例。但是,无论我运行多少次,我总是只得到一个主题。
我按照指示运行了命令:
我从运行 seqdumper 中得到了这个号码。命令运行后,我按照书中的说明运行 LDAPrintTopics 并获得以下信息:
有没有办法从 LDA 中获得更多主题?
谢谢。
c++ - C/C++ 中的非 GPL 开源潜在 Dirichlet 分配实现/库
我知道一些实现(主要来自这个问题),但它们似乎都是在 GPL 下发布的。
有没有没有 GPL 限制的(平台无关的)实现?
mahout - 使用 Mahout 训练 LDA 并检索其主题
我正在尝试 Apache Mahout 并且有很多关于如何使用 LDA 生成主题模型的信息,但是关于如何使用他们的新 CVB lda 算法来做同样的事情的信息很少。我想要做的是生成与原始主题类似的单词的概率ldatopic
。
任何有关如何执行此操作的信息或示例将不胜感激!
谢谢!
更新:
好的,所以我解决了这个问题,但它仍然不完整,所以任何帮助都会很棒!
scala - 推理标记 LDA/pLDA [主题建模工具箱]
我一直在尝试使用 TMT 工具箱(stanford nlp 组)从经过训练的标记 LDA 模型和 pLDA 推断代码。我浏览了以下链接中提供的示例:http: //nlp.stanford.edu/software/tmt/tmt-0.3/ http://nlp.stanford.edu/software/tmt/tmt-0.4/
这是我正在尝试标记 LDA 推理的代码
错误
found : scalanlp.collection.LazyIterable[(String, Array[Double])]
required: Iterable[(String, scalala.collection.sparse.SparseArray[Double])]
EstimateLabeledLDAPerWordTopicDistributions(model, dataset, perDocTopicDistributions);
我知道这是类型不匹配错误。但我不知道如何为scala解决这个问题。基本上我不明白我应该如何在推断命令的输出之后提取 1. 每个文档主题分布 2. 每个文档标签分布。
请帮忙。在 pLDA 的情况下也是如此。我到达推理命令,然后不知如何处理它。
hadoop - 将现有向量转换为 Mahout 向量
我正在尝试将词频值转换为 mahout 向量表示,以便我可以在给定向量上使用 LDA。我正在关注 mahout wiki,其中代码片段建议如何将现有向量转换为 Mahout 向量。
https://cwiki.apache.org/MAHOUT/creating-vectors-from-text.html
这是我的代码,我得到一个 NullPointerException 来代替创建 VectorWriter。apache cwiki 建议使用,
但是,我在 org.apache.hadoop.io.SequenceFile 中看不到 SequenceFile.createWriter;
这是完整的代码段。
这是错误,
org.apache.hadoop.io.SequenceFile$Writer.init(SequenceFile.java) 的 org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73) 的线程“主”java.lang.NullPointerException 中的异常:910) 在 org.apache.hadoop.io.SequenceFile$Writer.(SequenceFile.java:843) 在 org.apache.hadoop.io.SequenceFile$Writer.(SequenceFile.java:831) 在 org.apache.hadoop。 io.SequenceFile$Writer.(SequenceFile.java:823) 在 kbsi.ideal.LDATest.iterableTest(LDATest.java:161) 在 kbsi.ideal.LDATest.main(LDATest.java:194)
我真的很感谢你在这方面的帮助。谢谢
r - 如何在 LDA 中进行分类器(手动)
我正在尝试在 R 中制定 LDA 的分类规则,这是使用欧几里得距离,g(x)= t(w)x - wo
,w
是我的特征向量,x
我的测试数据,wo
两个类的平均值。
我的问题是,如何将模型(项目数据)传递给模型预测(True
- False
)?谢谢你
mahout - Mahout LDA 如何预测测试数据集上的主题?
从 apache Mahout 网站https://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.html我可以看到拟合 LDA 模型的过程并以 P("word" |“主题编号”)。但是,没有关于如何将经过训练的模型应用于测试数据来预测主题分布的信息。还是我们应该编写自己的程序来使用条件概率的输出来查找测试数据集上的主题?
php - 从 IRC 日志中提取文本
我想从 irc 日志中提取文本。我有来自 irssi 的常规 IRC 日志,如下所示:
我需要的是这样的输出:
所以,只是用空格分隔的单词,没有别的,没有刻痕,没有引号,问号等。我需要它作为 LDA 的输入。
我将通过后处理删除尼克斯,我认为这会更容易,还是?
我更喜欢带正则表达式的 PHP,我不擅长它,这就是为什么我向大家寻求帮助。
感谢您的时间!
编辑:
现在我使用这段代码(感谢 m.buettner):
任何改进它的建议将不胜感激;)