问题标签 [dirichlet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
math - 是否有用于从计数数据中学习 Dirichlet 先验的 R 包
我正在寻找一个R
可用于从计数数据中训练 Dirichlet 的软件包。求一个在用的同事,R
自己不用,所以不太清楚怎么找包。搜索起来有点困难,因为“R”是一个非特定的搜索字符串。CRAN上似乎没有任何东西,但是还有其他地方可以看吗?
java - 文档相似度
我使用 tf/idf 来计算两个文档之间的余弦相似度。它有一些限制,性能不是很好。
我寻找 LDA(潜在狄利克雷分配)来计算文档相似度。我对此知之甚少。我也找不到太多关于我的问题的东西。
您能否提供与我的问题相关的任何教程?或者你能给我一些建议,我怎样才能用 LDA 完成这个任务???
谢谢
PS:还有什么源代码可以用 LDA 执行这样的任务吗?
machine-learning - 狄利克雷过程中的质量点、狄拉克三角洲
在处理狄利克雷过程时,根据 [Teh, 2007],DP 由基本概率 H 和比例因子“alpha”定义
根据 Stick Breaking Construction,随机从 DP 中抽取 G:
G~DP(α,H)
由以下给出:
G=sum(pi_k*delta_theta_k) over k 从 1 到无穷大
pi_k 是在给定单一棒的长度的情况下从 Beta 分布中有序抽取
delta_theta_k 是以“theta_k”为中心的点质量(theta_k 是从基本分布中随机抽取的)
我对所有变量都有非常清楚的了解,但我不知道“质点”是什么意思,是抽签的概率密度,还是别的什么。
如果您能指出我的任何方向,那就太好了,只有参考才会令人惊叹。
谢谢
apache - 确定 Mahout LDA 输出上的文档 ID
我已经成功运行了 mahout lda,并使用命令 mahout ldatopics 显示了输出。
例如,我的主题是科学和体育。那么输出将是:主题 0 篮球,比赛,棒球主题 1 研究,研究,哲学
我现在的问题是如何识别单个文章的组或集群。是否有 ID 号或某种跟踪,以便对于我添加的每篇新文章,它将被分组或添加到特定的集群/主题。
如果我已经有了集群,下一步是什么?
谢谢
algorithm - LDA 和主题模型
我已经研究了几个星期的LDA和Topic模型。但是由于我的数学能力较差,我无法完全理解它的内部算法。我使用了GibbsLDA实现,输入了很多文档,并将主题编号设置为100,我得到了一个名为“final.theta”的文件,其中存储了每个文档中每个主题的主题比例。这个结果很好,我可以使用主题比例做很多其他事情。但是当我在 LDA 上尝试 Blei 的 C 语言实现时,我只得到了一个名为 final.gamma 的文件,但我不知道如何将这个文件转换为主题比例样式。谁能帮我。而且我了解到LDA模型有很多改进版本(例如CTM,HLDA),如果我能找到一个类似于LDA的主题模型,我的意思是当我输入很多文档时,它可以直接输出文档中的主题比例.
matlab - MatLab BayesNetToolbox 参数学习
我的问题特定于 MatLab 中 BayesNetToolbox 的“learn_params()”函数。在用户手册中,“learn_params()”被声明为仅在完全观察输入数据的情况下才适合使用。我已经用部分观察到的数据集进行了尝试,其中我将未观察到的值表示为 NaN。
似乎“learn_params()”可以处理数据集中不出现的 NaN 和节点状态组合。当我应用狄利克雷先验来平滑 0 值时,我得到所有节点的“合理”MLE 分布。我已经复制了我执行此操作的脚本。
有人可以澄清我所做的事情是否有意义,或者我是否遗漏了什么,即“learn_params()”不能与部分观察到的数据一起使用的原因。
我测试的 MatLab 脚本在这里:
parameters - 在 LDA 模型中,多项式参数 (theta) 是如何从 Dirichlet 先验权重 (alpha) 得出的?
我是现在正在学习LDA(潜在狄利克雷分配)模型的大一新生。但是,我遇到了一个问题。
theta是如何从alpha中得出的?
theta ~ Dir (alpha)
根据我的简短理解,变量 theta 是一个长度为 K 的向量,它的分量代表文档中的主题比例。并且,每个文档的 theta 彼此不同。而且,在语料库级别,alpha 仍然是一个 K 向量,而 theta 是一个 M(# of docs) x K(# of topic) 大小的矩阵。
第一个问题:我上面说的是真的吗?
第二个问题:如果是真的,在文档上,如何从同一个 Dirichlet 分布中得出不同的 thetas(K 向量)?
dictionary - 如何为 LDA 构建字典
我已经在 Latent Dirchlet Allocation 上工作了 2 周,我正在尝试构建一个字典和一个训练文件来尝试它。我已经通过使用 Blei 的训练文件在 Matlab 和 gcc 上进行了尝试,但我不知道如何创建字典。有人可以帮助我吗?谢谢安德里亚
r - 绘图未显示在 R 中
如何修复以下代码
不要得到这个空的情节:
python - 使用 gensim 了解 LDA 实现
我试图了解 Python 中的 gensim 包如何实现潜在狄利克雷分配。我正在执行以下操作:
定义数据集
删除停用词后,我创建了字典和语料库:
然后我定义了 LDA 模型。
然后我打印主题:
我无法从这个结果中理解很多。它是否提供了每个单词出现的概率?另外,主题#1,主题#2等是什么意思?我期待的东西或多或少像最重要的关键字。
我已经检查了gensim 教程,但它并没有太大帮助。
谢谢。