问题标签 [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Mallet:局部 N-gram
我想使用该--use-ngrams true
选项运行槌,但似乎无法使其正常工作。我已经使用以下方法导入了我的数据:
现在我想训练一个主题 ngram 模型:
但我收到了这个错误:
正如您所看到的,我将 mallet 作为命令行工具运行,并且不想窥探它的 API 以使其工作。有什么建议么?
machine-learning - 如何在新闻文章中使用 gensim for lda?
我正在尝试从大量新闻文章中检索主题列表,我打算使用 gensim 使用 LDA 为每个文档提取主题分布。我想知道 gensim 实现 lda 所需的已处理文章的格式以及如何将原始文章转换为该格式。我在维基百科转储上看到了这个关于使用 lda 的链接,但我发现语料库处于处理状态,其格式在任何地方都没有提及
python - 实施替代形式的 LDA
我正在使用潜在狄利克雷分配与来自六个不同来源的新闻数据语料库。我对主题的演变、出现很感兴趣,并想比较这些来源随着时间的推移是如何相似和不同的。我知道有许多修改过的 LDA 算法,例如 Author-Topic 模型、Topics Over Time 等等。
我的问题是这些替代模型规范中很少以任何标准格式实现。一些在 Java 中可用,但大多数仅作为会议论文存在。自己实现其中一些算法的最佳方法是什么?我对 R 和 jags 相当精通,并且只要给予足够长的时间,我就会在 Python 中跌跌撞撞。我愿意编写代码,但我真的不知道从哪里开始,也不知道 C 或 Java。我可以仅使用手稿中的公式在 JAGS 或 Python 中构建模型吗?如果是这样,有人可以指出我这样做的一个例子吗?谢谢。
machine-learning - 为什么斯坦福主题建模工具包确定的 30 个主题彼此如此相似?
斯坦福主题建模工具包(Stanford Topic Modeling Toolkit)在 19,500 篇文章(由 Twitter 用户共享)的语料库中确定的 30 个主题(耗时约 4 小时)彼此如此相似的可能原因是什么?他们有几乎相同的术语,频率=>本质上,我只有一个主题:)
确定的主题可以在这里找到
我在学习和推断阶段之前对文本文档进行标准准备:删除停用词、折叠空格、小写所有内容等。
我的一些参数:
- 主题数 = 30
- TermMinimumDocumentCountFilter = (10) ~> // 过滤出现在 < 10 个文档中的术语
- TermDynamicStopListFilter(30) ~> // 过滤掉 30 个最常用的术语
- DocumentMinimumLengthFilter(10) // 只接受 >= 10 个词条的文档
- topicSmoothing = SymmetricDirichletParams(0.01)
- termSmoothing = SymmetricDirichletParams(0.01)
- 最大迭代次数 = 10
text-mining - 主题模型的正确槌类
我正在为 Java 项目使用Mallet库。
我有 15,000 个文档,每个文档有 400 个令牌。我尝试使用ParallelTopicModel
. 但我想要一组既包含单个标记又包含标记序列的主题(例如“Java”和“Java Developer”)。
我正在考虑使用 LDA-HMM。我可以使用什么级别的槌?
然后我会将每个主题变成贝叶斯网络的节点,以接收一个令牌或令牌序列作为证据,并进行推理。我可以为此使用哪个 Java 库?
提前致谢。弗朗切斯科
ruby - 难以概念化如何让 LDA-Ruby 读取多个 .txt 文件
我正在尝试编写一个 Ruby 脚本来查看一组非结构化纯文本文件,并且我正在努力思考处理这些文件的最佳方式。我的主题建模脚本的当前工作版本如下:
我试图修改的是让这个程序读取纯文本文件的集合而不是单个文件。这并不像将所有文本文件扔到一个文件中那样简单(就像它目前对files.csv
. (我得出这个结论是因为让这个脚本读取corpus.txt
包含所有文本的单个文本文件 [例如,] 和files.csv
文件之间几乎没有差异。)
所以,我的问题是如何让 lda-ruby 以不同的方式遍历这些文本文件?是否应该将文件的内容放入散列中?如果是这样,关于我应该从哪里开始的任何指示?或者,我应该放弃这个并使用不同的 LDA 库吗?
提前感谢您的任何建议。
r - 主题建模:如何使用我的拟合 LDA 模型来预测 R 中新数据集的新主题?
我在 R 中使用“lda”包进行主题建模。我想使用适合新数据集的潜在狄利克雷分配(LDA)模型来预测新主题(文档中相关单词的集合)。在这个过程中,我遇到了 predict.distribution() 函数。但是该函数将 document_sums 作为输入参数,这是拟合新模型后的结果的输出。我需要帮助来了解现有模型在新数据集上的使用并预测主题。以下是 Johnathan Chang 为包编写的文档中的示例代码: 以下是它的代码:
任何帮助将不胜感激
感谢和问候,
Ankit
r - 从 R 中的文档语料库中删除“空”字符项?
我正在使用 R 中的tm
andlda
包来对新闻文章语料库进行主题建模。但是,我遇到了一个“非字符”问题,因为""
这会弄乱我的主题。这是我的工作流程:
不幸的是,当我训练 lda 模型时,除了最常出现的单词是“”之外,一切看起来都很好。我尝试通过从下面给出的词汇中删除它并重新估计上面的模型来解决这个问题:
但是,它仍然存在,如下所示:
关于如何删除它的任何建议?添加""
到我的停用词列表中也无济于事。
python - 用 Python (numpy) 实现主题模型
最近,我使用 numpy 在 Python 上实现了 LDA 主题模型的 Gibbs 采样,参考了网站上的一些代码。在 Gibbs 采样的每次迭代中,我们删除一个(当前)单词,根据从 LDA 模型推断的后验条件概率分布为该单词采样一个新主题,并更新单词主题计数,如下所示:
在上面的代码中,我们使用多项式 scipy 函数对一个新的(单个)z 进行采样。
现在,我想实现本文的联合情感主题模型。现在,我需要以下结构来跟踪所需的计数:
现在问题来了:在这个 Gibbs 采样器中,对于文档中看到的每个单词,现在都从条件后验中采样了一个新主题和一个情感标签(论文的第 4 页等式 5)。我现在如何在 Python 中“对这两个值进行采样”?
提前致谢...