问题标签 [text2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
135 浏览

r - R包text2vec--tokenize到序列

我在 text2vec 包中看到了很多用于标记字符串和制作 DTM 的功能,但是有没有办法创建序列?Rstudio keras 库有这个,但速度非常慢。这个想法是,不是返回一个矩阵,而是返回一个标记化项目的向量列表,输入向量中的每个项目一个。

https://keras.rstudio.com/reference/texts_to_sequences.html

这感觉应该是显而易见的,但我似乎找不到。

0 投票
1 回答
85 浏览

r - 将 R 矩阵转换为 text2vec dtm

我有一个 R 矩阵mat,我想对其执行 LDA。

当我运行时lda_model$fit_transform(mat, n_iter = 20),我得到一个错误:

有没有简单的方法来解决这个问题?我的矩阵的来源不是文本,我不想进入词汇表itoken()等。

0 投票
1 回答
744 浏览

r - 将 GloVe 预训练的嵌入作为矩阵读入 R

在 R 中工作。我知道预训练的 GloVe 嵌入(例如,“glove.6B.50d.txt”)可以在这里找到:https ://nlp.stanford.edu/projects/glove/ 。但是,我将这个文本文件读入 R 的运气为零,因此产品是由向量组成的词嵌入矩阵。有没有人成功地做到了这一点,无论是从保存的 .txt 文件还是从网站本身,如果是这样,该文本是如何转换为 R 中的矩阵的?

0 投票
1 回答
49 浏览

r - 为什么 text2vec 显示的文件比实际存在的要多?

我正在测试text2vec。一个目录下只有 2 个文件(1.txt、2.txt,很小,每个大约 20 k)。我想测试它们的相似性。我不知道为什么它说 54 个文件。

我把数据导出成csv,发现新的文件名叫做:

...

如果我用

它仍然显示 54 个文件

并且它们之间也存在相似性度量。大多数都是0相似度。

请让我知道是否应该是这种情况或任何情况。

我想要的只是 1.txt 和 2.txt 的一种相似性度量,并输出只包含这两个文件的度量的矩阵。

0 投票
1 回答
122 浏览

r - 为什么 fit_transform 和 transform 会产生不同的结果?

我正在使用text2vec包中的 LDA,并且很困惑为什么使用相同的数据时fit_transfrom和是不同的。transform

文档指出,transform 将学习模型应用于新数据,但结果与生成的模型有很大不同fit_transform

我希望两者都doc_topic_distr相同new_doc_topic_distr,但它们完全不同。

0 投票
1 回答
39 浏览

r - 使用 doc_id 将 doc_topic_distr 与 DTM 原始数据连接起来

我想尝试一些类似的预测东西: https ://www.quora.com/How-do-I-use-LDA-Latent-Dirichlet-Allocation-for-document-classification-preferably-with-可以在 R 中实现的解决方案

我认为我将不得不使用 doc_id 作为唯一标识符将我的原始数据与 topic_doc_distr 表合并,但我实际上不知道如何。

/edit:doc_id 是持久的还是在语料库创建/数据框转换后变得过时?

我已经尝试了以下 R-Code,但我不知道如何在其中添加 doc_id。

有什么线索吗?

0 投票
0 回答
270 浏览

r - 计算两组文档之间的总余弦和 Jaccard 距离

我从在线新闻网站收集了一份摘要列表,并使用它们的原始标签(例如,政治、娱乐、体育、金融等)按主题手动标记它们。现在我想比较任何两个主题(例如,标记为“政治”的摘要与标记为“金融”的摘要)之间摘要中单词使用的相似性;但是,由于每个主题下的新闻摘要数量不同,并且任何两个摘要之间的字长也不同,这使得逐篇文档的余弦相似度计算变得困难。

所以我所做的就是通过按主题划分示例数据、解析和提取它们、向量化每个摘要(即行条目)中的标记并构建 dtm 以创建用于比较的向量空间来引用text2vec 小插图。

虽然小插图中列出的方法text2vec很简单,但输出是以矩阵格式生成的。我想知道是否有任何方法可以在标记为两个不同主题的任何两组文档之间获得单个相似性度量(例如,介于 0 和 1 或 (-1, 1) 之间的某个值)?

我在下面提供了我当前的代码,还提供了属于 3 个不同主题的新闻摘要的小 9 行数据(请注意,属于每个主题的文档数量和它们的字长都是不同的:与主题有关的新闻“体育”有两个条目,主题“政治”有四个条目,主题“金融”有三个条目)。不要期望从这么小的数据中得到有意义的相似性结果,它只是作为一个例子。

如果有人能指出修改我现有代码的方法并获得任何两个主题之间的单个成对相似性度量,那将不胜感激。

0 投票
0 回答
308 浏览

r - 手套使用中的预初始化权重 手套中的初始参数 text2vec fit_transform

我想使用fit_transform的初始参数预初始化手套、词向量和偏差。函数状态的文档作为命名列表传递“w_i,w_j,b_i,b_j”值 - 初始词向量和偏差。

结果我 fit_transform 并提取它们。因此,我创建了一个新的手套实例并将提取的数据传递给一个新的手套实例(使用初始参数)。尽管我希望从第一个 fit_transform 到达的位置“继续”,但成本总是会激增,这表明我没有以正确的方式进行操作,或者它不受支持。

我尝试在 GloVe$new( 仅在 glove_model$fit_transform 和两者上传递初始参数。每当我使用初始参数时,错误/成本都会爆炸。

第一遍 (B.) 的输出是

在第二次通过时,成本从 0.0574 爆炸到 1062

我预计成本将从 0.0574 恢复,但不是:(。

文档中所述的参数与源代码匹配

非常感谢您的帮助

0 投票
0 回答
124 浏览

text-mining - 我在哪里可以找到 r 中的相干函数?

对不起,我是基本的,但我想使用我在此链接上找到的“连贯”功能来评估我的潜在 dirichlet 分配主题,它不适用于 text2vec,我无法判断它在哪个库中,如果它不是那个吗。

0 投票
1 回答
73 浏览

for-loop - 使用 text2vec 的困惑问题

正如我经常提到的,我在 230k 文档上使用 text2vec。我试图通过使用困惑来为我的文档术语矩阵找到最佳主题编号。当我一个一个地使用它时,它工作得非常好,但是当我尝试使用循环来获取它的范围从 2 到 25 时它不起作用,我不知道为什么,有人可以告诉我什么是错误的?