问题标签 [topic-modeling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
768 浏览

sparse-matrix - 稀疏矩阵的 pLSA 实现

我正在尝试实现 Thomas Hoffman (1999) 提出的 pLSA 算法。但是,我发现的所有实现都认为输入 term-doc 矩阵是完整的而不是稀疏的。由于我的输入矩阵非常大且稀疏,因此我想找出一种支持稀疏性的算法。你能帮我找一个吗?首选 Matlab 或 Java。

更新我发现 PennAspect http://www.cis.upenn.edu/~ungar/Datamining/software_dist/PennAspect/index.html 实际上用稀疏矩阵输入实现了 PLSA。

解决方案很简单。二维参差不齐的数组(每行长度不同的数组)可用于表示稀疏矩阵。

0 投票
1 回答
1390 浏览

mahout - Mahout LDA 如何预测测试数据集上的主题?

从 apache Mahout 网站https://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.html我可以看到拟合 LDA 模型的过程并以 P("word" |“主题编号”)。但是,没有关于如何将经过训练的模型应用于测试数据来预测主题分布的信息。还是我们应该编写自己的程序来使用条件概率的输出来查找测试数据集上的主题?

0 投票
3 回答
1304 浏览

python - 基于主题的文本和用户相似度

我希望使用他们的主题表示来计算用户和文本文档之间的相似性。即,每个文档和用户都由一个主题向量(例如神经科学、技术等)以及该主题与用户/文档的相关程度来表示。

然后我的目标是计算这些向量之间的相似度,以便我可以找到相似的用户、文章和推荐文章。

我曾尝试使用 Pearson Correlation,但一旦达到约 40k 篇文章并且向量的长度约为 10k,它最终会占用过多的内存和时间。

我正在使用 numpy。

你能想象一个更好的方法来做到这一点吗?还是不可避免(在单台机器上)?

谢谢

0 投票
1 回答
379 浏览

tagging - 用于自动主题标记的 MALLET - 带有训练数据

我有一个已标记的文档语料库。我有大约 400 个标签的固定列表 - 与不同的主题相关。每个文档都被标记了一个或多个标签和一个简短的标题。(我还有一个更大的标题列表——如果文档包含非常相似的内容,我经常会重复使用它)

我想创建一个界面,根据我标记现有文档的方式,为我添加到语料库的新文档建议标签/标题(来自我现有的列表)。

我已阅读有关概率主题模型 LDA 类的信息,当您没有任何现有的标记数据时,它看起来非常适合分析文本。但我看不出有任何方法可以整合我现有的工作。

任何建议,将不胜感激。

亲切的问候

斯瓦米

0 投票
2 回答
599 浏览

python - 基于主题的推荐系统的用户分析

我正在尝试提出一个基于主题的推荐系统来向用户推荐相关的文本文档。

我在维基百科语料库上使用 gensim 训练了一个潜在语义索引模型。这让我可以轻松地将文档转换为 LSI 主题分布。我现在的想法是以同样的方式代表用户。但是,当然,用户有查看文章的历史记录,以及文章的评分。

所以我的问题是:如何代表用户?

我的一个想法如下:将用户表示为所有查看过的文档的聚合。但是如何考虑评级?

有任何想法吗?

谢谢

0 投票
1 回答
720 浏览

csv - 在斯坦福主题建模工具箱中读取 CSV 错误

我正在尝试使用斯坦福主题建模工具箱 (TMT) 来尝试主题建模 [0]。我是 Scala 初学者。但是,我似乎无法通过读取 CSV 文件来准备我的数据集。这是我的代码

这会引发以下错误

同样,我在其他数据预处理功能(如 Tokenizer)上也遇到错误。这是代码

这是上述代码收到的错误。

我正在使用与 TMT 主页 [1] 上相同的 CSV 文件。此外,脚本和数据位于同一文件夹中。

问题是什么?我无法从 TMT 主页运行完全相同的测试示例。

[0] http://nlp.stanford.edu/software/tmt/tmt-0.4/

[1] http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv

0 投票
1 回答
1846 浏览

python - Stream Parse Wiki Xml 转储

我不确定以前是否有人问过这个问题,但我一直找不到,请原谅我的无知。我想解析(流解析)大约 40 Gigs 的维基百科 xml 转储。我正在尝试使用 lxml iterparse aka 流解析器来为我完成这项工作,但由于某种原因,我编写的代码对我不起作用。在我解释我想要做什么之前,让我们考虑一下这种 xml 格式

在上面的 xml 结构中,这与 wiki 转储非常相似,我想要做的是使用 python 流解析器(例如 lxml)读取“页面”标签(基本上将转储中的不同文章分开)内的每一件事(无需将整个 xml 树加载到内存中,这是不可能的)并在其上执行正则表达式。正是我想要做的是,如果在当前的“页面”元素中查找文本标签“类别:活着的人”,如果找到这样的匹配正则表达式,则将“文本”标签内的全部内容写成文本文件。但在正则表达式部分之前,我遇到了 lxml 解析器本身的问题。我在下面尝试的示例代码。提前致谢 :)

随意完全更改代码并提供您自己的版本,只要我能解决我的问题,我真的不介意!

请有人帮忙!

0 投票
0 回答
1140 浏览

r - 任何包都包含 R 中的 Labeled-LDA 实现

我正在使用 R 研究有监督的主题模型;有一个带有标签的数千字文档,我想设计一个应用程序来自动为新文档分配标签。我正在使用 R 来测试算法并选择最好的算法。

我的问题是:是否有任何实现 Labeled-LDA 的 R 包? 顺便说一句:我尝试过包:tm、、 和topicmodel,并尝试了一些算法,例如 SVM LDAldaRTextTools

0 投票
1 回答
990 浏览

python - 如何将 R LDA 主题模型导入主题模型可视化引擎(TMVE)?

在 Python 中构建主题模型和主题浏览器的好框架是什么?

主题模型可视化引擎(TMVE) 可能会将潜在狄利克雷分配的结果通过管道传输到网站中。我已经学会在 R 中使用 topicmodel 库,但我不知道如何将它导入 TMVE。


主要是,我正在寻找使用 Python 或 R 的解决方案。我可能只是尝试从 R 输出构建我自己的(非常糟糕的)主题浏览器。

看起来这是一两年前的热门研究课题。David Blei 页面上的资源似乎已经过时了。

TMVE好像在 gitHub 上,最后一次编辑是一年前。

0 投票
6 回答
31281 浏览

r - 从 R 主题模型中的 DocumentTermMatrix 中删除空文档?

我正在使用 R 中的 topicmodels 包进行主题建模。我正在创建一个语料库对象,进行一些基本的预处理,然后创建一个 DocumentTermMatrix:

然后执行 LDA:

对 LDA() 的最终调用返回错误

我假设这意味着至少有一个文档在预处理后没有术语。有没有一种简单的方法可以从 DocumentTermMatrix 中删除不包含任何术语的文档?

我查看了 topicmodels 包的文档,发现了 removeSparseTerms 函数,该函数删除了未出现在任何文档中的术语,但没有类似的删除文档。