问题标签 [text2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
536 浏览

r - LDA$new 模型构造函数 text2vec R 包错误:.subset2(public_bind_env, "initialize")(...) 中的错误:未使用的参数 (...)

错误是:

LDA$new在成功创建词汇、标记器和 dtm 后运行时出现错误。完整的代码是:

我正在使用 'text2vec' 版本 0.5.0、R 3.4.1 64 位、RStudio 1.0.153。

0 投票
4 回答
1156 浏览

r - 使用哈希字典的词形还原函数不适用于 R 中的 tm 包

我想使用大型外部字典(格式如下面的 txt 变量)对波兰语文本进行词形还原。我不幸运,可以选择使用流行的文本挖掘包的波兰语。@DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717适用于简单的文本向量。(我还从字典和语料库中删除了波兰语变音符号。)该函数适用于文本向量。

不幸的是,它不适用于 tm 生成的语料库格式。让我粘贴 Dmitriy 的代码:

现在我想将它应用于 tm 语料库“文档”这是我将在 tm 生成的语料库上与 tm 包一起使用的示例语法。

我尝试的另一种语法:

它向我抛出了一个错误:

该函数适用于文本向量,但不适用于 tm 语料库。提前感谢您的建议(如果它不适用于 tm,甚至可以将此功能与其他文本挖掘包一起使用)。

0 投票
1 回答
446 浏览

r - 在 R text2vec 包中 - LDA 模型可以显示文档中每个标记的主题分布?

我在 text2vec 中创建了测试 LDA 代码,我可以得到 word-topic 分布和 document-topic 分布。(而且它快疯了)

顺便说一句,我想知道是否可以从 text2vec 的 LDA 模型中获取文档中每个标记的主题分布?

我理解LDA分析过程的结果是文档中的每个token都属于特定的主题,因此每个文档都有主题分布。

如果我能得到每个令牌的主题分布,我喜欢通过分类文档(如句号)检查每个主题的热门词变化。是否可以?

如果有其他方法,我会非常感激让我知道。

0 投票
1 回答
124 浏览

r - 标记列表不适用于 UTF8

我从 Oracle DB 中提取一些数据来进行一些文本挖掘。我的数据是 UTF8 并且 vocab 无法处理它。

但词汇中只存在英文单词。

  • 此链接中存在列表变量对象(可以加载load()
  • 我用窗户
  • 版本:

platform x86_64-w64-mingw32 arch x86_64
os mingw32
system x86_64, mingw32
status
major 3
minor 3.0
year 2016
month 05
day 03
svn rev 70573
language R
version.string Oracle Distribution of R version 3.3.0 (2016-05-03) 昵称 据说教育

0 投票
1 回答
498 浏览

r - text2vec 和 topicmodels 可以为 LDA 生成具有合适参数设置的相似主题吗?

我想知道不同包的结果(因此,算法)有何不同,以及是否可以设置参数以产生类似的主题。我看了看包裹text2vectopicmodels特别是。

我使用下面的代码来比较这些包生成的 10 个主题(参见代码部分的术语)。我无法生成具有相似含义的主题集。例如,主题 10 fromtext2vec与“警察”有关,由 产生的主题均未topicmodels提及“警察”或类似术语。更进一步,我无法topicmodels在由text2vec.

我是 LDA 的初学者,因此,对于有经验的程序员来说,我的理解可能听起来很幼稚。然而,直觉上,人们会假设应该有可能产生一组具有相似含义的主题来证明结果的有效性/稳健性。当然,不一定是完全相同的一组术语,而是针对类似主题的术语列表。

也许问题只是我对这些术语列表的人工解释不足以捕捉相似性,但也许有一些参数可能会增加人工解释的相似性。有人可以指导我如何设置参数来实现这一点,或者以其他方式提供适当资源的解释或提示以提高我对此事的理解吗?

这里有一些可能相关的问题:

  • 我知道text2vec不使用标准 Gibbs 采样,而是使用WarpLDA,这已经是算法上的差异topcimodels。如果我的理解是正确的,则priorsalphadeltaused intopicmodels分别设置为doc_topic_priortopic_word_priorin text2vec
  • 此外,在后处理中,text2vec 允许lambda根据频率对主题术语进行排序。我还不明白,术语是如何排序的topicmodels- 与设置相比lambda=1?(我尝试了 0 到 1 之间的不同 lambda,但没有得到类似的主题)
  • 另一个问题是,即使在设置时似乎也很难产生一个完全可重现的例子seed (例如,参见这个问题)。这不是我的直接问题,但可能会使回答更加困难。

很抱歉这个冗长的问题,并提前感谢任何帮助或建议。

Update2:我已将第一次更新的内容移至基于更完整分析的答案中。

更新:text2vec根据包创建者Dmitriy Selivanov的有用评论,我可以确认设置lambda=1增加了两个包生成的术语列表之间的主题相似性。

length(setdiff())此外,我通过快速检查和跨主题仔细查看了两个包生成的术语列表之间的差异length(intersect())(参见下面的代码)。这个粗略的检查表明text2vec每个主题丢弃了几个术语 - 可能是单个主题的概率阈值?topicmodels保留所有主题的所有条款。这解释了可以从术语列表(由人类)得出的部分含义差异。

如上所述,生成可重现的示例似乎很困难,因此我没有在下面的代码中调整所有数据示例。由于运行时间短,任何人都可以检查他/她自己的系统。

0 投票
1 回答
1446 浏览

r - 使用 text2vec 包进行文本预处理和主题建模

我有大量文档,我想使用 text2vec 和 LDA (Gibbs Sampling) 进行主题建模。

我需要的步骤如下(按顺序):

  1. 从文本中删除数字和符号

    /li>
  2. 删除停用词

    /li>
  3. 用术语替换同义词

我有一个 excel 文件,其中第一列是主要词,同义词列在第二、第三和 ... 列中。我想用主要词(第 1 列)替换所有同义词。每个术语可以有不同数量的同义词。这是使用“tm”包的代码示例(但我对 text2vec 包中的代码感兴趣):

  1. 转换为文档术语矩阵

    /li>
  2. 在文档术语矩阵上应用 LDA 模型

    /li>

步骤3中的MyCorpurs是使用“tm”包获得的语料库。第 2 步和第 3 步不能一起工作,因为第 2 步的输出是词汇,但第 3 步的输入是“tm”语料库。

我的第一个问题是如何使用 text2vec 包(和兼容的包)完成所有步骤,因为我发现它非常有效;感谢德米特里·塞利瓦诺夫。

第二:我们如何在步骤 5 中为 LDA 中的参数设置最佳值?是否可以根据数据自动设置它们?

感谢 Manuel Bickel 在我的帖子中的更正。

谢谢,山姆

0 投票
1 回答
115 浏览

text2vec - 如何在 text2vec 包中使用 prepare_analogy_questions 和 check_analogy_accuracy 函数?

以下代码:

导致错误:

来自 word2vec 来源的文件 questions-words.txt https://github.com/nicholas-leonard/word2vec/blob/master/questions-words.txt

0 投票
1 回答
178 浏览

r - 我已经完成了 TF-IDF 并希望在插入符号包 [R] 中实现模型

我已经实现了这个链接中解释的 TF-IDF 算法:https ://cran.r-project.org/web/packages/text2vec/vignettes/text-vectorization.html#tf-idf

所以,分类器是这样实现的:

x 和 y 的类型是:

如何使用不同的分类器,例如在“Caret”包中你会写:

问题是这不起作用。有什么方法可以实现不同的分类器而不是 cv.glmnet 例如在 caret 包中?这个输入 x,y 和插入符号分类器之间是否有任何联系?如果没有,是否有像 cv.glmnet 这样的包可以处理这种类型的输入?

0 投票
1 回答
81 浏览

text2vec - text2vec - Do topics' words update with new data?

I'm currently performing a topic modelling using LDA from text2vec package. I managed to create a dtm matrix and then apply LDA and its fit_transform method with n_topics=50.

While looking at the top words from each topic, a question popped into my mind. I plan to apply the model to new data afterwards and there's a possibility of occurence of new words, which were not encountered by the model before. Will the model still be able to assign each word to its respective topic? Moreover, will these words also be added to the topic, so that I will be able to locate them using get_top_words?

Thank you for answering!

0 投票
1 回答
144 浏览

r - LiblineaR 中 CSC 格式的稀疏矩阵 dgCMatrix 出现错误 [R]

dtm_train_tfidf 是 CSC 格式的稀疏矩阵 dgCMatrix

我正在使用应该接受稀疏矩阵的函数 LiblineaR。但是,当我使用稀疏矩阵 dtm_train_tfidf 时,会出现以下错误: