问题标签 [topicmodels]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 R 中处理主题建模结果时重复的文档名称
R
我正在使用包创建基于推文的主题模型topicmodels
。
我想创建一个包含来自主题模型的所有结果的数据框,以便我可以将其插入数据库。我就是这样做的:
现在我的问题:当我将我的数据框写入数据库时,我收到错误,即有重复的 id:
RS-DBI 驱动程序:(无法检索结果:错误:重复键值违反唯一约束“topics_pkey”详细信息:键(id)=(1)已存在。上下文:复制主题,第 1 行
这很奇怪,因为我已经检查了 id 确实在多大程度上与 `SELECT COUNT(DISTINCT id) FROM tweets;。返回的数字与选择整个表中的所有 id 相同。
我认为我将结果组合到数据框的方式出了点问题topicmodels
。但我无法弄清楚发生了什么。有谁知道这里发生了什么?
machine-learning - 如何使用 Mallet 获取给定查询的主题概率
我想将Mallet用作专家查找项目的一部分。我对 Mallet 几乎是新手,但我知道它从一组文档中训练主题。假设我有 50 个由 Mallet 训练的主题。我想计算这个概率:p(topic|q)
或者p(q|topic)
q
是查询。这是一个词(如算法,android等),我希望找到指定领域的专家。
当我读到这篇文章:如何使用槌获得词主题概率--word-topic-counts-file
时,其中一位用户说我们可以使用选项来计算概率。假设我已经通过 Mallet 生成了这个文件。它具有以下结构:
我知道这种结构的语义,但我不知道如何计算给定查询的主题概率(即p(topic|q)
或两者之一p(q|topic)
)
PS:我使用“任何一个”这个词是因为我不确定 mallet 会计算其中的哪一个
任何帮助,将不胜感激
machine-learning - 槌组合文件上的空源
我想用槌子来训练主题。我的数据在一个文件中,所以我研究了 mallet 文档以了解如何构建这个 One Single 文件。
在Mallet 网站的One 文件下,每行一个实例部分,据说:
[URL] [语言] [页面文本...]
在这种情况下,每行的第一个标记(空格分隔,可选逗号)成为实例名称,第二个标记成为标签,并且该行上的所有其他文本都被解释为一系列单词标记。
所以根据上面的引用,我以这种方式创建了我的单个文件:
然后导入这个单个文件:
之后,我训练了 3 个主题:
但是,当我打开 时data_composition.txt
,它具有以下结构:
所以现在的问题是:为什么 mallet 会null-source
在这个合成文件上打印?我希望它在源标题下打印 URL(在我的例子中是 ID)。
编辑:
我想要这样的东西:
提前致谢!
r - 是否可以找到在给定文档中使用 LDAvis 生成的主题的后验概率?怎么样,如果是这样?
从问题中可能会或可能不会很明显,我对 R 很陌生,我可以在这方面提供一些帮助。
在创建主题模型时,我尝试了 LDA 和 LDAvis - 下面 (A) 和 (B) 中的代码。(A) 中的 LDA 允许我找到我的语料库中每个文档中出现的主题的后验概率,我用它来运行来自其他数据集的变量的回归。(B),使用 LDAvis 的主题生成方法,比通过 (A) 生成“更好”、更连贯的主题,但我无法弄清楚如何找到给定文档中出现的主题的后验概率LDAvis 方法,或者是否将其视为不可能完成的任务。
非常感谢所有建议。
谢谢!
(一个)
(乙)
cluster-analysis - 如何在 Cytoscape.js 中指定节点之间的链接距离?
我是 Cytoscape.js 的新手,所以我可能遗漏了一些明显的东西......
我知道如何在 D3.js 中执行此操作,但需要更多功能来显示大量节点(> 1,000)的集群,并且不需要可视化链接。
在此先感谢您指出正确的方向...
r - R:topicmodels,2个类似的文档,代码适用于一个,不适用于另一个
当我运行我的 topicmodel 代码时,发生了一个非常奇怪的错误。基本上我有一个带有用户评论的 .csv 文件。我想创建一个 dtm,每个评论都是一个文档。我抽取了 8k 条评论的样本,并在上面使用了以下代码:
所以这个工作得很好。如果我再取 8k 评论样本,还有 csv 文件、相同格式等,则会发生以下错误:
我猜 dtm 的某些东西没有起作用,因为它说有 9875 个文档但根本没有条款。但我完全不知道为什么这些代码适用于一个样本而不适用于另一个样本。请告诉我我是否在代码上做错了什么,或者您是否发现了任何其他错误。
提前致谢!
r - R LDA主题模型如何获得delta的后验
我使用 R 包 topicmodels 运行 LDA,我一直在尝试获取 delta 的值,在我的理解中,这是关于主题的单词的 dirichlet 参数。但是,我无法访问该值。我只设法使用
或者
我知道如何获得后验分布的 alpha(主题的 Dir 参数),这很简单,slot(LDA,"alpha")
但如何获得 delta?
非常感谢!
r - R 主题模型标签元数据与 DublinCore
我有大量文本(12,000 个文档,每个文档有数千个单词),现在我想在每个文档(日期、创建者、标题)上添加元数据,这些元数据存储在单独的日期框架中。
原始数据的基本结构是这样的:
我设法做的是一个循环:
然而正如我所说,我有很多文档,我无法承受循环的低效率。所以我正在考虑使用 sapply 函数:
它的作用是直接为我打印出来,而不是真正改变元标记。但是我不知道如何或在哪里存储结果。
如果您能调查一下这个问题,我将不胜感激。先感谢您。
r - LDA TopicModels 生成数字列表而不是术语
请耐心等待,因为我对此非常陌生,并且正在为证书课程的课程项目工作。
我有通过从 Pubmed 和 Embase 数据库检索文献计量记录获得的 .csv 数据集。有 1034 行。有几列,但是,我试图从一列创建主题模型,摘要列和一些记录没有摘要。我已经进行了一些处理(删除停用词、标点符号等),并且能够绘制出现超过 200 次的单词,并按排名创建常用术语列表,还可以运行与选定单词的单词关联。因此,似乎 r 在 Abstract 字段中看到了单词本身。当我尝试使用 topicmodels 包创建主题模型时,我的问题就出现了。这是我正在使用的代码。
但是,我得到的主题输出如下。
为什么我在这里看不到文字而不是数字?
此外,我基本上从 topicmodels 上的 r PDF 中获取的以下代码确实为我产生了价值,但主题仍然是数字而不是单词,这对我来说毫无意义。
关于问题可能是什么的任何想法?