问题标签 [topicmodels]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
351 浏览

python - 如何在python中的主题建模中以不同的顺序处理相同单词的二元组?前任。“租约延期”和“延期租约”

您好 Stackoverflow 社区,

我正在向大家寻求有关如何在 python 中的主题建模中以不同顺序处理相同单词的二元组的想法。

我有一个主题模型,其中两个意思相同的二元组被视为不同的特征,因为它们的顺序不同。我需要一种方法来将这两个二元组视为同义词。

欢迎提出想法和建议。

前任。'lease extension' 和 'extension lease' 我想把它们当作词矩阵中的同一个词

欢迎任何类型的建议和想法。

提前谢谢你,尼哈尔

0 投票
1 回答
614 浏览

r - 为什么 LDA 预测不正确

步骤1

我正在使用 R 和“topicmodels”包从 4.5k 文档语料库构建 LDA 模型。我做了通常的预处理步骤(停用词、削减低/高词频、词形还原),最终得到一个我很满意的 100 个主题模型。事实上,它几乎是满足我需求的完美模型。

第2步

然后我使用与上述相同的精确过程对一个新的(模型看不到的)300 个文档语料库进行预处理,然后将其转换为文档术语矩阵,然后使用同一包的“后验”函数来预测主题新数据。该语料库来自同一作者,与训练集非常相似。

我的问题

我得到的预测(后验概率)是完全错误的。这是我用来获取后验的代码:

  • justlda 是在步骤 1 中使用整个语料库构建的模型。
  • dtm_lemma 是新数据的预处理文档术语矩阵。
  • 控制是 lda 参数(两者相同)。

我觉得不仅预测错误,主题权重也很低。没有什么是主导话题。(对于这个 100 个主题的模型,大多数主题都是 0.08,我很幸运得到了一个甚至不相关的 0.20 权重......)

我在 NLP/LDA 和 R 语言方面获得了不到一年的经验。我觉得我可能在某个地方犯了一个非常业余的错误,可以解释错误的预测?

这样的结果正常吗?我可能做错了什么?

0 投票
0 回答
1335 浏览

r - R中指定的向量大小太大

我正在尝试获取其中一个关键字的推文,比如说“zomato”,并尝试对获取的推文进行主题建模。以下是获取推文的搜索功能。

发布这个我会清理推文,这通常会完成并存储在变量“ZomatoCleaned”中。我还没有添加那段代码。然后我形成语料库做主题建模如下图

不幸的是

我收到错误“R 中指定的向量大小太大”或“无法分配大小为 36.6Gb 的向量”。我正在使用 8Gb Ram 系统和 Rstudio 3.5.2 我已经运行 gc() 命令并尝试设置 memory.limit() 但没有帮助。是否有一些解决方法来处理这个数据集?我知道这是内存问题,但请就如何解决这种情况提供帮助

主题建模错误 Zomato

dat 的 O/P:structure(c(0, 1, 0, 0, 0, 0), weighting = c("term frequency", "tf"), class = c("DocumentTermMatrix", "simple_triplet_matrix"))

数据输出图像

0 投票
1 回答
809 浏览

lda - 是否可以对单个文档使用主题建模

对单个文档使用主题建模是否合理,或者更准确地说,对单个文档使用 LDA-gibbs 方法在数学上是否可行。如果是这样,k 和种子的值应该是多少。此外,k 和种子对于单个文档和大型文档集的作用是什么。

K 和 SEED 是函数 LDA 的变量(在 r studio 中)。如果我在这个问题的任何地方错了,也请告诉我。

为了讲述我的项目,我试图找出可用于表示单个文档内容的主要主题。

我已经尝试过使用 k=4,7,10。我的部分问题也是 k 的值应该更好。

0 投票
1 回答
123 浏览

r - 从 lda 对象恢复原始文档 ID

我正在尝试使用来自topicmodels. groupby()虽然使用over document 并在 gamma 上选择很容易从文档中提取最有可能的预测主题top_n(),但在“beta”估计中,唯一的文档 id 将在输出中被抑制,输出仅包含三列 ( topic, term, beta) . 这不允许人们从给定文档的术语中获得“共识”主题预测(测试版)。

以我自己的数据为例:

无论如何我可以从lda输出中恢复文档 id 并与beta估计(word_topics存储为data.frame对象)结合起来吗?beta这样从 的共识与的共识中比较估计的主题会容易得多gamma

0 投票
0 回答
36 浏览

r - 在 R 中,如何在主题模型中编写数据函数?

今天我学习 R 中的主题模型。第一个问题是如何加载下面的数据集。我发现 R 中有一些预先构建的数据集。但是如何在 R 中保存新构建的数据集,以便我可以像使用其他数据一样使用它,例如原油、acq.... 如何在数据中编写 adtm( ) 在以下几行中?以及如何保存 adtm 以便下次我可以像原油一样使用它?非常感谢。你能帮我么?

0 投票
1 回答
862 浏览

nlp - LDA 的混淆矩阵

我正在尝试使用混淆矩阵检查我的 LDA 模型的性能,但我不知道该怎么做。我希望有人可以指出我正确的方向。

所以我在一个充满短文档的语料库上运行了一个 LDA 模型。然后我计算了每个文档的平均向量,然后继续计算余弦相似度。

我现在如何获得混淆矩阵?请注意,我对 NLP 世界很陌生。如果有其他/更好的方法来检查这个模型的性能,请告诉我。

0 投票
1 回答
531 浏览

r - 如何创建网格搜索以找到最佳参数?

在 lda 分析中

如何创建网格搜索以找到参数的最佳值?

0 投票
1 回答
136 浏览

r - 如何在不丢失行的情况下创建 dtm

我尝试运行一个lda。

我必须使用它将其转换为适当的格式

但是,有了这个,我不知道为什么我会从最初的输入中丢失 2-3 个文档。

结果,我可以将主题与初始数据框合并

我虽然可以使用 dfm,但它在 lda() 中是不可接受的格式

不幸的是,我无法提供示例输入,因为它大约有 30000 行。如果我将其测试为五行的小示例,则该解决方案可以正常工作。

有什么建议么?

0 投票
2 回答
120 浏览

r - 如何在lda中保留已删除文本的文本ID

我有一个这样的数据框

我用这个为 lda 执行文本清理

但是我注意到在 dtm 中,当文本列不包含任何内容时,它会删除它。

但是,当我想获取第一个数据帧的主题和相关 id 时,它给了我一个问题。我该怎么做才能获得正确的结果?