问题标签 [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R主题建模-lda命令'lexicalize'给出意想不到的结果
我正在使用 R 中的“lda”包来执行语料库的主题模型分析(我们称之为“语料库B”)。我首先使用命令“lexicalize”为分析准备语料库,该命令返回一个术语文档矩阵,如果未预先指定,则返回一个带有唯一标记出现在语料库中的词汇表。
出于研究目的,我想使用从另一个语料库(我们称之为“语料库A”)推断出的词汇对语料库进行词汇化,这应该很容易做到。然而,它不起作用。这是代码示例:
知道为什么我得到空结果吗?奇怪的是,如果我使用简单的字符向量而不是导入的语料库,该命令就可以正常工作。
还有一些可能有用的信息:
1)我感兴趣的语料库(corpusB)包含700mb的文本,相当可观的数据;
2) 使用“tm”包将两个语料库(B 和 A)导入 R。在词汇化之前,我还使用“tm”来删除标点符号、数字、停用词,以去除空格和小写字母。
很感谢任何形式的帮助!
r - Output of lda.collapsed.gibbs.sampler command from R lda package
I don't understand this part of output from lda.collapsed.gibbs.sampler command. What I don't understand is why the numbers of the same word in different topics are different? For example, why for the word "test" there is 4 of them in second topics when topic 8 get 37 of them. Shouldn't number of same word in different topic be the same integer or 0?
Or Do I misunderstood something and these numbers don't stand for number of word in the topic?
Here is the code that I run.
PS. Sorry for the long post and my bad english.
python - 使用 Gensim 包进行 LDA 主题建模时出现 IndexError
我总共有 54892 个文档,其中包含 360331 个唯一标记。字典长度为 88。
每当我运行此脚本时,我都会收到此错误:
我在网上查了一下,有人提到我可能与计算机的 RAM 有关。我正在使用具有 4 GB RAM 的 Windows 7 32 位。我应该在脚本中进行哪些更改?
请帮忙!
hadoop - 如何使用 apache mahout 实现 LDA?
有一个 CSV 格式的数据集,如下所示。
我需要使用 mahout LDA(潜在狄利克雷分配)算法找到标签之间的相关性。任何人都可以帮助我找到如何使用 Apache Mahout 做到这一点。
我也很困惑,mahout 到底想要什么输入格式?
如果有人请为 mahout 初学者分享一些好东西,这将很有帮助
r - lda.collapsed.gibbs.sampler 模型和热门词排名
我有一个由函数lda.collapsed.gibbs.sampler生成的模型,来自 lda 包,我需要知道最重要的词的“相关性”。使用时
我得到了每个主题的前 10 个词的列表,但我想看看这 10 个词代表的主题百分比。我猜信息是存在的,因为有一个“分数”,但我对 Gibbs 采样器的统计方法并不是很熟悉。
提前致谢!
machine-learning - 使用(LDA,HDP)自动创建主题?
我正在研究 CV(简历)进行分类,我使用了 LDA。通过设置(N = 3),我对 CV(营销、计算机、通信)的 3 个不同概念的结果很好。现在的问题是,如何为具有财务概念(或其他概念)的新简历创建新主题(当然是通过将其添加到现有主题中)?
事实上,我的目标是每次都产生新的主题以获得新的概念。
我每天都会收到不同概念的不同简历,我怀疑选择哪种算法(HDP、On_Line LDA)对自动分类有用。
r - 清除文档术语矩阵中的空白条目的解决方法?
我有一些过去用来生成主题模型的 r 代码。一切正常,直到我更新了我的所有 r 包以希望解决一个稍微不相关的问题。现在,以前工作的代码似乎被破坏了,我不知道该怎么办。
我阅读了这篇文章 ,发现它对最初的设置非常有帮助。它描述了一种在删除稀疏项以设置后续分析后清理空白行的方法。当我使用当前的包输入相同的代码时,会发生以下情况:
有谁知道我如何才能找到问题并回滚到可行的解决方案?谢谢。
r - 将数据库输出转换为语料库以进行主题建模
我总共有 54892 个文档。从数据库中检索它们后,我应该如何将它们转换为可用于使用 LDA 进行主题建模的语料库?
这是我尝试过的代码:
我参考了这个页面,并注意到该data
行的输出data <- NYTimes[sample(1:3100,size=1000,replace=FALSE),]
包含一个两列的表以及另一个名为 的表TopicCode
,然后将data
其转换为术语文档频率矩阵。我不知道如何TopicCode
从我从数据库中检索到的两列中得到它?
我在 Python 中尝试过类似的问题,我将数据转换为市场矩阵格式。我想在 R 中使用这个文件进行进一步的计算。我尝试使用读取这个文件b <- readMM(file="PRC.mm")
,当我打印时,b
我得到了一个336331X88
看起来像这样的矩阵:
其中.
表示 0。这看起来像一个术语文档矩阵,但我仍然想在 R 中重新制作这种矩阵。我该怎么办?
python - 使用 RPy2 进行主题建模
我希望使用 RPy 在 Python 中使用 LDA。我已经使用gensim
包尝试过这个,但我仍然想尝试RPy2
一下。
使用 RI 时使用以下代码:
我想将上面的代码转换为 RPy2 的 python 代码。我已经尝试过了:
以下是调试日志:
我应该如何将 R 代码转换为 Python 的 RPy2 代码?请帮忙!
machine-learning - 我们怎么知道狄利克雷分布描述的是主题而不是其他东西?
Dirichlet 分布用于文档建模。
我从这篇文章中读到:
不同的 Dirichlet 分布可用于对不同作者的文档或不同主题的文档进行建模。
那么我们如何判断它是针对不同作者还是针对不同主题进行建模呢?这很重要,因为在文档聚类任务中,它直接决定了聚类结果的语义。
而且我发现将建模的可能方面仅限于作者或主题过于主观。由于似乎没有强有力的证据支持某个特定方面,因此它可能是任何其他潜在/潜在方面。
任何人都可以对此有所了解吗?