问题标签 [dirichlet]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

81 问题

0 投票

1 回答

1512 浏览

math - 是否有用于从计数数据中学习 Dirichlet 先验的 R 包

我正在寻找一个R可用于从计数数据中训练 Dirichlet 的软件包。求一个在用的同事，R自己不用，所以不太清楚怎么找包。搜索起来有点困难，因为“R”是一个非特定的搜索字符串。CRAN上似乎没有任何东西，但是还有其他地方可以看吗？

Alex Coventry

2008-11-01T15:48:30.187

0 投票

4 回答

1769 浏览

java - 文档相似度

我使用 tf/idf 来计算两个文档之间的余弦相似度。它有一些限制，性能不是很好。

我寻找 LDA（潜在狄利克雷分配）来计算文档相似度。我对此知之甚少。我也找不到太多关于我的问题的东西。

您能否提供与我的问题相关的任何教程？或者你能给我一些建议，我怎样才能用 LDA 完成这个任务？？？

谢谢

PS：还有什么源代码可以用 LDA 执行这样的任务吗？

java math dirichlet

2010-02-17T01:43:35.203

0 投票

1 回答

701 浏览

machine-learning - 狄利克雷过程中的质量点、狄拉克三角洲

在处理狄利克雷过程时，根据 [Teh, 2007]，DP 由基本概率 H 和比例因子“alpha”定义

根据 Stick Breaking Construction，随机从 DP 中抽取 G：

G~DP(α,H)

由以下给出：

G=sum(pi_k*delta_theta_k) over k 从 1 到无穷大

pi_k 是在给定单一棒的长度的情况下从 Beta 分布中有序抽取

delta_theta_k 是以“theta_k”为中心的点质量（theta_k 是从基本分布中随机抽取的）

我对所有变量都有非常清楚的了解，但我不知道“质点”是什么意思，是抽签的概率密度，还是别的什么。

如果您能指出我的任何方向，那就太好了，只有参考才会令人惊叹。

谢谢

machine-learning dirichlet

2010-10-25T10:05:07.990

0 投票

1 回答

720 浏览

apache - 确定 Mahout LDA 输出上的文档 ID

我已经成功运行了 mahout lda，并使用命令 mahout ldatopics 显示了输出。

例如，我的主题是科学和体育。那么输出将是：主题 0 篮球，比赛，棒球主题 1 研究，研究，哲学

我现在的问题是如何识别单个文章的组或集群。是否有 ID 号或某种跟踪，以便对于我添加的每篇新文章，它将被分组或添加到特定的集群/主题。

如果我已经有了集群，下一步是什么？

谢谢

apache machine-learning cluster-analysis mahout dirichlet

2011-02-25T07:47:29.867

0 投票

2 回答

2066 浏览

algorithm - LDA 和主题模型

我已经研究了几个星期的LDA和Topic模型。但是由于我的数学能力较差，我无法完全理解它的内部算法。我使用了GibbsLDA实现，输入了很多文档，并将主题编号设置为100，我得到了一个名为“final.theta”的文件，其中存储了每个文档中每个主题的主题比例。这个结果很好，我可以使用主题比例做很多其他事情。但是当我在 LDA 上尝试 Blei 的 C 语言实现时，我只得到了一个名为 final.gamma 的文件，但我不知道如何将这个文件转换为主题比例样式。谁能帮我。而且我了解到LDA模型有很多改进版本（例如CTM，HLDA），如果我能找到一个类似于LDA的主题模型，我的意思是当我输入很多文档时，它可以直接输出文档中的主题比例.

algorithm model lda dirichlet

2012-03-07T12:59:10.497

0 投票

1 回答

488 浏览

matlab - MatLab BayesNetToolbox 参数学习

我的问题特定于 MatLab 中 BayesNetToolbox 的“learn_params()”函数。在用户手册中，“learn_params()”被声明为仅在完全观察输入数据的情况下才适合使用。我已经用部分观察到的数据集进行了尝试，其中我将未观察到的值表示为 NaN。

似乎“learn_params()”可以处理数据集中不出现的 NaN 和节点状态组合。当我应用狄利克雷先验来平滑 0 值时，我得到所有节点的“合理”MLE 分布。我已经复制了我执行此操作的脚本。

有人可以澄清我所做的事情是否有意义，或者我是否遗漏了什么，即“learn_params()”不能与部分观察到的数据一起使用的原因。

我测试的 MatLab 脚本在这里：

matlab nan bayesian-networks dirichlet

2012-07-13T14:35:43.767

0 投票

1 回答

1430 浏览

parameters - 在 LDA 模型中，多项式参数 (theta) 是如何从 Dirichlet 先验权重 (alpha) 得出的？

我是现在正在学习LDA（潜在狄利克雷分配）模型的大一新生。但是，我遇到了一个问题。

theta是如何从alpha中得出的？

theta ~ Dir (alpha)

根据我的简短理解，变量 theta 是一个长度为 K 的向量，它的分量代表文档中的主题比例。并且，每个文档的 theta 彼此不同。而且，在语料库级别，alpha 仍然是一个 K 向量，而 theta 是一个 M(# of docs) x K(# of topic) 大小的矩阵。

第一个问题：我上面说的是真的吗？

第二个问题：如果是真的，在文档上，如何从同一个 Dirichlet 分布中得出不同的 thetas（K 向量）？

parameters lda topic-modeling dirichlet

2013-08-12T06:18:55.210

0 投票

0 回答

178 浏览

dictionary - 如何为 LDA 构建字典

我已经在 Latent Dirchlet Allocation 上工作了 2 周，我正在尝试构建一个字典和一个训练文件来尝试它。我已经通过使用 Blei 的训练文件在 Matlab 和 gcc 上进行了尝试，但我不知道如何创建字典。有人可以帮助我吗？谢谢安德里亚

dictionary lda vocabulary dirichlet

2013-08-29T12:33:58.857

0 投票

1 回答

1785 浏览

r - 绘图未显示在 R 中

如何修复以下代码

不要得到这个空的情节：

空狄利克雷图

r ggplot2 dirichlet

2013-09-07T19:26:23.963

0 投票

5 回答

30379 浏览

python - 使用 gensim 了解 LDA 实现

我试图了解 Python 中的 gensim 包如何实现潜在狄利克雷分配。我正在执行以下操作：

定义数据集

删除停用词后，我创建了字典和语料库：

然后我定义了 LDA 模型。

然后我打印主题：

我无法从这个结果中理解很多。它是否提供了每个单词出现的概率？另外，主题＃1，主题＃2等是什么意思？我期待的东西或多或少像最重要的关键字。

我已经检查了gensim 教程，但它并没有太大帮助。

谢谢。

python gensim lda topic-modeling dirichlet

2013-12-03T11:31:04.670

1 2 3 4 5 6 7 8 9 10

问题标签 [dirichlet]

Reference