问题标签 [topic-modeling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
595 浏览

nlp - 在斯坦福主题建模工具包 (TMT) 中,针对主题的数字是什么意思(在输出文件“summary.txt”中)?

斯坦福 TMT 的“summary.txt”文件的典型片段如下:

到目前为止,我能够获得的关于这些数字的唯一信息是(来自http://nlp.stanford.edu/software/tmt/tmt-0.4):

[Snapshot]/summary.txt Human readable summary of the topic model, with top-20 terms per topic and how many words instances of each have occurred.

但是反对该主题的数字是什么意思?(在本例中,Topic00 37.47500834475079

0 投票
2 回答
5070 浏览

r - 如何为 R 中的主题建模(topicmodels、lda、tm)进行数据准备?

我有一个冗长的 txt 文件(每个文件大约 20.000-30.000 个字)的语料库(622 个文档),我正在尝试在 R 中探索。我已经使用 tm 包进行了一些基本的文本挖掘,并想深入研究主题现在建模。但是,由于对此非常陌生,我已经在为数据准备的一些基础知识而苦苦挣扎。此处提供了我当前正在使用的文件示例:http: //s000.tinyupload.com/? file_id=46554569218218543610

  1. 我假设只是将这些冗长的文档输入主题建模工具是没有意义的。所以我想把它们分成段落(或者可能是 300-500 个单词的集合,因为我的数据中有很多多余的段落中断和 OCR 错误)。您会在 VCorpus 中执行此操作,还是我应该实际划分我的源文件(例如使用 shell 脚本)?有什么建议或经验吗?

  2. 文本来自 OCR 的杂志文章,所以如果我将文档拆分,我想我应该在这些段落中添加一个元数据标签,告诉我它最初来自哪个问题(基本上只是原始文件名),正确? 有没有办法轻松做到这一点?

  3. 一般来说,任何人都可以推荐一个很好的 R 主题建模的实践介绍吗?实际上,一个像三年级学生一样手把手教我的教程会很棒。我正在使用“topicmodels”和“lda”的文档,但是对于新手来说学习曲线相当陡峭。 编辑:为了清楚起见,我已经阅读了很多关于主题建模的流行介绍(例如Scott Weingart历史学家的 MALLET 教程)。我在想一些特定于 R 中的过程的东西。

希望这些问题不是完全多余的。感谢您花时间阅读!

0 投票
1 回答
809 浏览

r - 可以交互使用包,但是 Rscript 给出错误

我在 R 中使用“topicmodels”包。一切都可以交互地工作,但是如果我使用 运行完全相同的命令Rscript,我会得到错误。

第一个错误(我解决了)是 R 不知道is()函数是什么。我通过导入"methods"包解决了这个问题。显然,Rscript即使交互式 R 会自动导入它,它也不会自动导入,这会导致 is() 出现问题。问题解决了。

但是,我现在陷入了另一个错误,我无法弄清楚。我正在使用包LDA()中的函数"topicmodels",使用数据(DTM 格式)和 k=10。我这样称呼它:

它给了我以下错误:

最主要的是它可以交互地工作,但不使用Rscript. 我知道数据格式正确,如果我打印数据,它看起来不错。还有什么我想念的吗?是否有其他模块Rscript不加载,但 R 交互加载?谢谢!

0 投票
1 回答
1598 浏览

nltk - 互联网文章和社交媒体的层次分类+主题模型训练数据

我想按主题对大量基于互联网的小型文章(推文、博客文章、新闻等)进行分类(100K 到 1M+)​​。为了实现这个目标,我一直在寻找可用于构建分类器模型的标记训练数据文档。为了使这篇文章最有用,以下是我发现的一些可能的来源:

a) www.freebase.com/internet/website/category?instances=

b) wikipedia-miner.cms.waikato.ac.nz(访问维基百科数据的工具包)

c) en.wikipedia.org/wiki/Wikipedia:Database_download

d) wiki.dbpedia.org/About(属于类别的 SKOS 格式主题关键字)

e) 互联网搜索大型文章集,然后进行聚类和手动管理

问题 1:是否有额外的互联网资源可以提供带标签的培训文件?给定主题的关键字集,尤其是加权集也很有用

理想情况下,我想构建一个分类器,该分类器将返回分层类别,并且随着更多的兴趣/数据变得可用,可以在以后添加子主题详细信息。

问题 2:是否有分层结构的主题建模/分类框架(也可能是可扩展的)?一个代码示例将特别受欢迎

非常感谢

更新:

路透社语料库第 1 卷(在 RCV1-v2 上搜索)它是 1990 年代后期的大约 80 万篇路透社文章,按人类分类为主题、行业和地区类别

一个学术联盟 (LDC) 分发各种语料库,包括由纽约时报编译的带有约 150 万个标记文档的语料库: http: //catalog.ldc.upenn.edu/LDC2008T19

0 投票
5 回答
30379 浏览

python - 使用 gensim 了解 LDA 实现

我试图了解 Python 中的 gensim 包如何实现潜在狄利克雷分配。我正在执行以下操作:

定义数据集

删除停用词后,我创建了字典和语料库:

然后我定义了 LDA 模型。

然后我打印主题:

我无法从这个结果中理解很多。它是否提供了每个单词出现的概率?另外,主题#1,主题#2等是什么意思?我期待的东西或多或少像最重要的关键字。

我已经检查了gensim 教程,但它并没有太大帮助。

谢谢。

0 投票
1 回答
456 浏览

r - 在 R 中的频率列表上创建主题模型

我一直在使用该topicmodels包在 R 中创建 LDA 模型。

但它接受文档的唯一格式是实际的文字文档。我想知道是否有办法提供频率图

这显然不是 R 中的“地图”,而是允许从词频创建主题模型的任何数据结构(数据框、表、向量列表)表示?

我需要这个的原因是因为主题模型不是在“文档”和“单词”上创建的,而是在图像中的类似特征上创建的,并且长格式表示需要太多空间。

0 投票
1 回答
937 浏览

r - R主题建模-lda命令'lexicalize'给出意想不到的结果

我正在使用 R 中的“lda”包来执行语料库的主题模型分析(我们称之为“语料库B”)。我首先使用命令“lexicalize”为分析准备语料库,该命令返回一个术语文档矩阵,如果未预先指定,则返回一个带有唯一标记出现在语料库中的词汇表。

出于研究目的,我想使用从另一个语料库(我们称之为“语料库A”)推断出的词汇对语料库进行词汇化,这应该很容易做到。然而,它不起作用。这是代码示例:

知道为什么我得到空结果吗?奇怪的是,如果我使用简单的字符向量而不是导入的语料库,该命令就可以正常工作。

还有一些可能有用的信息:

1)我感兴趣的语料库(corpusB)包含700mb的文本,相当可观的数据;

2) 使用“tm”包将两个语料库(B 和 A)导入 R。在词汇化之前,我还使用“tm”来删除标点符号、数字、停用词,以去除空格和小写字母。

很感谢任何形式的帮助!

0 投票
1 回答
1264 浏览

r - Output of lda.collapsed.gibbs.sampler command from R lda package

I don't understand this part of output from lda.collapsed.gibbs.sampler command. What I don't understand is why the numbers of the same word in different topics are different? For example, why for the word "test" there is 4 of them in second topics when topic 8 get 37 of them. Shouldn't number of same word in different topic be the same integer or 0?

Or Do I misunderstood something and these numbers don't stand for number of word in the topic?

Here is the code that I run.

PS. Sorry for the long post and my bad english.

0 投票
1 回答
722 浏览

python - 使用 Gensim 包进行 LDA 主题建模时出现 IndexError

我总共有 54892 个文档,其中包含 360331 个唯一标记。字典长度为 88。

每当我运行此脚本时,我都会收到此错误:

我在网上查了一下,有人提到我可能与计算机的 RAM 有关。我正在使用具有 4 GB RAM 的 Windows 7 32 位。我应该在脚本中进行哪些更改?

请帮忙!

0 投票
2 回答
160 浏览

statistics - 结构化文档中的主题模型?(或者 EM 或 MCMC 会起作用吗?)

我有一组文档,每个文档都包含 N 个单词。每个文档的第 i 个词是从一组公共词中选择的,Wi={wi1, wi2, wi3, wi4}。

例如,每个文档中的第一个单词可能选自:{'alpha', 'one', 'first', 'lowest'}。第二个词可能选自:{'beta', 'two', 'second', 'lower'}。等等。

这些词可能属于不同的主题。例如,一个主题可能由 {'alpha', 'beta', 'gamma', etc...} 组成。另一个主题可能是 {'alpha', 'two', 'third', etc...}。每个文档都有不同的主题用法(就像普通的主题模型一样)。

要生成一个新文档,您需要遍历每个位置 1...N。对于第 i 个词,您根据文档的主题用法选择一个主题,然后根据主题的词用法从 Wi 中选择一个词。因此,每个主题总共有 N 个单词 - 每个位置一个。

我的问题是如何学习这个模型中的潜在参数?具体来说,我想知道(1)每个文档的主题用法,以及(2)每个主题的单词组成。这看起来很像一个主题模型,但我不知道我是否可以使用任何开箱即用的东西?

因为我可以写出给定参数的数据的可能性,所以我尝试实现一个 EM 算法来估计 (1) 主题使用情况,然后使用它来更新 (2) 单词使用情况(并不断迭代直到收敛)。但是,这真的很慢。

我读过的另一件事是,如果我可以编写联合密度函数,我可以尝试从后验密度中采样来学习这些隐藏参数(使用 MCMC)。这听起来可行吗?我有大约 100 个文档,每个文档的长度约为 1000 个单词,在每个单词位置,您可以从 6 个单词中进行选择。

如果有人可以提供帮助或提供建议,我将不胜感激。谢谢!