问题标签 [topic-modeling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Mallet:局部 N-gram
我想使用该--use-ngrams true
选项运行槌,但似乎无法使其正常工作。我已经使用以下方法导入了我的数据:
现在我想训练一个主题 ngram 模型:
但我收到了这个错误:
正如您所看到的,我将 mallet 作为命令行工具运行,并且不想窥探它的 API 以使其工作。有什么建议么?
text-mining - 主题模型的正确槌类
我正在为 Java 项目使用Mallet库。
我有 15,000 个文档,每个文档有 400 个令牌。我尝试使用ParallelTopicModel
. 但我想要一组既包含单个标记又包含标记序列的主题(例如“Java”和“Java Developer”)。
我正在考虑使用 LDA-HMM。我可以使用什么级别的槌?
然后我会将每个主题变成贝叶斯网络的节点,以接收一个令牌或令牌序列作为证据,并进行推理。我可以为此使用哪个 Java 库?
提前致谢。弗朗切斯科
r - 主题建模:如何使用我的拟合 LDA 模型来预测 R 中新数据集的新主题?
我在 R 中使用“lda”包进行主题建模。我想使用适合新数据集的潜在狄利克雷分配(LDA)模型来预测新主题(文档中相关单词的集合)。在这个过程中,我遇到了 predict.distribution() 函数。但是该函数将 document_sums 作为输入参数,这是拟合新模型后的结果的输出。我需要帮助来了解现有模型在新数据集上的使用并预测主题。以下是 Johnathan Chang 为包编写的文档中的示例代码: 以下是它的代码:
任何帮助将不胜感激
感谢和问候,
Ankit
r - 从 R 中的文档语料库中删除“空”字符项?
我正在使用 R 中的tm
andlda
包来对新闻文章语料库进行主题建模。但是,我遇到了一个“非字符”问题,因为""
这会弄乱我的主题。这是我的工作流程:
不幸的是,当我训练 lda 模型时,除了最常出现的单词是“”之外,一切看起来都很好。我尝试通过从下面给出的词汇中删除它并重新估计上面的模型来解决这个问题:
但是,它仍然存在,如下所示:
关于如何删除它的任何建议?添加""
到我的停用词列表中也无济于事。
python - 用 Python (numpy) 实现主题模型
最近,我使用 numpy 在 Python 上实现了 LDA 主题模型的 Gibbs 采样,参考了网站上的一些代码。在 Gibbs 采样的每次迭代中,我们删除一个(当前)单词,根据从 LDA 模型推断的后验条件概率分布为该单词采样一个新主题,并更新单词主题计数,如下所示:
在上面的代码中,我们使用多项式 scipy 函数对一个新的(单个)z 进行采样。
现在,我想实现本文的联合情感主题模型。现在,我需要以下结构来跟踪所需的计数:
现在问题来了:在这个 Gibbs 采样器中,对于文档中看到的每个单词,现在都从条件后验中采样了一个新主题和一个情感标签(论文的第 4 页等式 5)。我现在如何在 Python 中“对这两个值进行采样”?
提前致谢...
lda - 潜在狄利克雷分配解决方案示例
我正在尝试了解潜在狄利克雷分配(LDA)。我有机器学习和概率论的基本知识,并且基于这篇博客文章http://goo.gl/ccPvE,我能够开发 LDA 背后的直觉。但是,我仍然没有完全理解其中的各种计算。我想知道有人可以向我展示使用非常小的语料库的计算(比如说 3-5 个句子和 2-3 个主题)。
lda - LDA 主题建模 - 训练和测试
我已经阅读了 LDA,并且我了解当一个人输入一组文档时如何生成主题的数学原理。
参考资料说,LDA 是一种算法,给定一组文档,仅此而已(无需监督),可以发现该集合中文档表达的“主题”。因此,通过使用 LDA 算法和吉布斯采样器(或变分贝叶斯),我可以输入一组文档,作为输出,我可以获得主题。每个主题都是一组具有指定概率的术语。
我不明白的是,如果以上是真的,那为什么很多主题建模教程都在谈论将数据集分为训练集和测试集呢?
谁能解释一下 LDA 如何用于训练模型的步骤(基本概念),然后可以用来分析另一个测试数据集?
javascript - Javascript - 等待网络工作者完成?
作为项目的一部分,我正在 javascript 中实现主题建模的LDA算法。单击按钮后,将调用执行 LDA 的函数。然而,由于这是一项非常繁重的任务,因此在调用该函数时浏览器会挂起大约 15 秒(即使在处理过程中加载动画 gif 也不起作用)。
所以我将该功能实现为web worker。这解决了挂起问题,但现在加载动画会在几秒钟内消失,而结果会在 12-14 秒后显示。
有什么方法可以让加载器在处理过程中进行动画处理?我的意思是在加载动画消失之前等待网络工作者完成计算。
脚本被异步调用,加载器附加到 jQuery 的 ajax 事件中
mahout - 使用 Mahout 训练 LDA 并检索其主题
我正在尝试 Apache Mahout 并且有很多关于如何使用 LDA 生成主题模型的信息,但是关于如何使用他们的新 CVB lda 算法来做同样的事情的信息很少。我想要做的是生成与原始主题类似的单词的概率ldatopic
。
任何有关如何执行此操作的信息或示例将不胜感激!
谢谢!
更新:
好的,所以我解决了这个问题,但它仍然不完整,所以任何帮助都会很棒!
scala - 推理标记 LDA/pLDA [主题建模工具箱]
我一直在尝试使用 TMT 工具箱(stanford nlp 组)从经过训练的标记 LDA 模型和 pLDA 推断代码。我浏览了以下链接中提供的示例:http: //nlp.stanford.edu/software/tmt/tmt-0.3/ http://nlp.stanford.edu/software/tmt/tmt-0.4/
这是我正在尝试标记 LDA 推理的代码
错误
found : scalanlp.collection.LazyIterable[(String, Array[Double])]
required: Iterable[(String, scalala.collection.sparse.SparseArray[Double])]
EstimateLabeledLDAPerWordTopicDistributions(model, dataset, perDocTopicDistributions);
我知道这是类型不匹配错误。但我不知道如何为scala解决这个问题。基本上我不明白我应该如何在推断命令的输出之后提取 1. 每个文档主题分布 2. 每个文档标签分布。
请帮忙。在 pLDA 的情况下也是如此。我到达推理命令,然后不知如何处理它。