“lda”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

937 浏览

r - R主题建模-lda命令'lexicalize'给出意想不到的结果

我正在使用 R 中的“lda”包来执行语料库的主题模型分析（我们称之为“语料库B”）。我首先使用命令“lexicalize”为分析准备语料库，该命令返回一个术语文档矩阵，如果未预先指定，则返回一个带有唯一标记出现在语料库中的词汇表。

出于研究目的，我想使用从另一个语料库（我们称之为“语料库A”）推断出的词汇对语料库进行词汇化，这应该很容易做到。然而，它不起作用。这是代码示例：

知道为什么我得到空结果吗？奇怪的是，如果我使用简单的字符向量而不是导入的语料库，该命令就可以正常工作。

还有一些可能有用的信息：

1）我感兴趣的语料库（corpusB）包含700mb的文本，相当可观的数据；

2) 使用“tm”包将两个语料库（B 和 A）导入 R。在词汇化之前，我还使用“tm”来删除标点符号、数字、停用词，以去除空格和小写字母。

很感谢任何形式的帮助！

r tm lda topic-modeling

2014-01-15T20:58:07.707

0 投票

1 回答

1264 浏览

r - Output of lda.collapsed.gibbs.sampler command from R lda package

I don't understand this part of output from lda.collapsed.gibbs.sampler command. What I don't understand is why the numbers of the same word in different topics are different? For example, why for the word "test" there is 4 of them in second topics when topic 8 get 37 of them. Shouldn't number of same word in different topic be the same integer or 0?

Or Do I misunderstood something and these numbers don't stand for number of word in the topic?

Here is the code that I run.

PS. Sorry for the long post and my bad english.

r package lda topic-modeling

2014-01-16T17:54:04.577

0 投票

1 回答

722 浏览

python - 使用 Gensim 包进行 LDA 主题建模时出现 IndexError

我总共有 54892 个文档，其中包含 360331 个唯一标记。字典长度为 88。

每当我运行此脚本时，我都会收到此错误：

我在网上查了一下，有人提到我可能与计算机的 RAM 有关。我正在使用具有 4 GB RAM 的 Windows 7 32 位。我应该在脚本中进行哪些更改？

请帮忙！

python lda topic-modeling gensim

2014-01-23T16:09:48.800

0 投票

1 回答

1129 浏览

hadoop - 如何使用 apache mahout 实现 LDA？

有一个 CSV 格式的数据集，如下所示。

我需要使用 mahout LDA（潜在狄利克雷分配）算法找到标签之间的相关性。任何人都可以帮助我找到如何使用 Apache Mahout 做到这一点。

我也很困惑，mahout 到底想要什么输入格式？

如果有人请为 mahout 初学者分享一些好东西，这将很有帮助

hadoop bigdata mahout lucene lda

2014-01-23T16:47:41.743

0 投票

1 回答

583 浏览

r - lda.collapsed.gibbs.sampler 模型和热门词排名

我有一个由函数lda.collapsed.gibbs.sampler生成的模型，来自 lda 包，我需要知道最重要的词的“相关性”。使用时

我得到了每个主题的前 10 个词的列表，但我想看看这 10 个词代表的主题百分比。我猜信息是存在的，因为有一个“分数”，但我对 Gibbs 采样器的统计方法并不是很熟悉。

提前致谢！

r statistics lda

2014-01-24T20:33:28.163

0 投票

1 回答

908 浏览

machine-learning - 使用（LDA，HDP）自动创建主题？

我正在研究 CV（简历）进行分类，我使用了 LDA。通过设置（N = 3），我对 CV（营销、计算机、通信）的 3 个不同概念的结果很好。现在的问题是，如何为具有财务概念（或其他概念）的新简历创建新主题（当然是通过将其添加到现有主题中）？

事实上，我的目标是每次都产生新的主题以获得新的概念。

我每天都会收到不同概念的不同简历，我怀疑选择哪种算法（HDP、On_Line LDA）对自动分类有用。

machine-learning lda

2014-01-27T08:43:49.953

0 投票

2 回答

1260 浏览

r - 清除文档术语矩阵中的空白条目的解决方法？

我有一些过去用来生成主题模型的 r 代码。一切正常，直到我更新了我的所有 r 包以希望解决一个稍微不相关的问题。现在，以前工作的代码似乎被破坏了，我不知道该怎么办。

我阅读了这篇文章，发现它对最初的设置非常有帮助。它描述了一种在删除稀疏项以设置后续分析后清理空白行的方法。当我使用当前的包输入相同的代码时，会发生以下情况：

有谁知道我如何才能找到问题并回滚到可行的解决方案？谢谢。

r tm lda topic-modeling

2014-01-31T04:55:07.287

0 投票

0 回答

275 浏览

r - 将数据库输出转换为语料库以进行主题建模

我总共有 54892 个文档。从数据库中检索它们后，我应该如何将它们转换为可用于使用 LDA 进行主题建模的语料库？

这是我尝试过的代码：

我参考了这个页面，并注意到该data行的输出data <- NYTimes[sample(1:3100,size=1000,replace=FALSE),]包含一个两列的表以及另一个名为的表TopicCode，然后将data其转换为术语文档频率矩阵。我不知道如何TopicCode从我从数据库中检索到的两列中得到它？

我在 Python 中尝试过类似的问题，我将数据转换为市场矩阵格式。我想在 R 中使用这个文件进行进一步的计算。我尝试使用读取这个文件b <- readMM(file="PRC.mm")，当我打印时，b我得到了一个336331X88看起来像这样的矩阵：

其中.表示 0。这看起来像一个术语文档矩阵，但我仍然想在 R 中重新制作这种矩阵。我该怎么办？

r lda topic-modeling

2014-02-02T15:43:49.577

0 投票

0 回答

166 浏览

python - 使用 RPy2 进行主题建模

我希望使用 RPy 在 Python 中使用 LDA。我已经使用gensim包尝试过这个，但我仍然想尝试RPy2一下。

使用 RI 时使用以下代码：

我想将上面的代码转换为 RPy2 的 python 代码。我已经尝试过了：

以下是调试日志：

我应该如何将 R 代码转换为 Python 的 RPy2 代码？请帮忙！

python r rpy2 lda topic-modeling

2014-02-19T20:25:52.743

0 投票

2 回答

588 浏览

machine-learning - 我们怎么知道狄利克雷分布描述的是主题而不是其他东西？

Dirichlet 分布用于文档建模。

我从这篇文章中读到：

不同的 Dirichlet 分布可用于对不同作者的文档或不同主题的文档进行建模。

那么我们如何判断它是针对不同作者还是针对不同主题进行建模呢？这很重要，因为在文档聚类任务中，它直接决定了聚类结果的语义。

而且我发现将建模的可能方面仅限于作者或主题过于主观。由于似乎没有强有力的证据支持某个特定方面，因此它可能是任何其他潜在/潜在方面。

任何人都可以对此有所了解吗？

machine-learning data-mining lda dirichlet

2014-02-22T12:19:36.777

问题标签 [lda]

Reference