问题标签 [text2vec]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

108 问题

0 投票

1 回答

142 浏览

text-mining - 使用 ldatuning 库在潜在 Dirichlet 分配模型上查找主题数量时出错

这是结果错误，我可以说这是因为至少有一个文档没有某个术语，但我不明白为什么以及如何解决它。

尽管我知道 ldatuning 是为主题模型制作的，但我认为获得一个数字开始测试可能不会有很大的不同，是吗？

2019-10-24T16:58:38.877

0 投票

1 回答

53 浏览

r - 为什么 text2vec 的 RWMD 模块中的距离在 1 和 -1 之间？

据我了解，伟大的 text2vec 包的 dist2 RWMD 功能将矩阵之间的距离计算为余弦距离。那不是意味着 1 - （余弦相似度）吗？如果余弦相似度介于 0 和 1 之间，那么不应该导致值也介于 0 和 1 之间吗？我不确定在这种情况下如何解释负距离，以及它们与正距离有何不同。谢谢！

r word-embedding text2vec

2019-10-24T18:25:31.630

0 投票

1 回答

79 浏览

text - 我无法使用 text2vec 为我的测试数据创建 tf-idf 矩阵

我正在按照本教程进行操作，就像我做训练集一样，但它一直在说同样的事情。有人知道这有什么问题吗？

text text-mining tf-idf text2vec

2019-10-25T17:18:35.773

0 投票

1 回答

521 浏览

r - R曲线中的肘部/膝盖

我有这个数据处理：

我知道有很多这样的问题，但我一直无法准确找到我的情况的答案。在上图中，您可以看到潜在狄利克雷分配模型从 3 到 25 个主题编号的困惑度计算。我想获得其中最充分的值，这意味着我想找到肘部或膝盖，对于那些可能只被视为简单数字向量的值，其结果如下所示：

这就是情节的样子

我会说肘部是 13 或 16，但我不完全确定，我想要确切的数字作为结果。我在这篇论文中看到 f''(x) / (1+f'(x)^2)^1.5 是膝盖公式，我这样尝试并说它是 18：

我无法完全弄清楚这件事。有人想分享我如何根据困惑作为结果获得确切的理想主题编号吗？

r plot text2vec perplexity

2019-10-28T23:57:41.250

0 投票

1 回答

66 浏览

r - 从 R 中的闪亮服务器函数返回几个对象，以便首先绘制 LDAvis 图

下面的代码是我用于在闪亮的应用程序中使用 topic_model 函数中的 text2vec 绘制 LDA 图的代码。input$date 是一个 checkboxGroupInput 选择， input$data 非常适合 DT::renderDataTable 输出和 topic_model 在应用程序之外运行良好。在这里，我找到了如何在一个闪亮的应用程序中获得 LDA 图，但我并没有真正得到它，因为它是被复制的。input$go 是一个简单的 actionButton。

这是我得到的错误：Listening on http://127.0.0.1:3363 Warning: Error in exists: invalid first argument [No stack trace available]

r shiny lda text2vec

2019-12-18T17:34:28.080

0 投票

1 回答

269 浏览

r - 用 R 将语料库中的两个单词组合起来

所以这是我的代码

我的 .csv 是纽约时报的文章。我想在词汇中结合“纽约”、“南非”、“埃利斯岛”等词，而不仅仅是这样的标记：“新”、“约克”等

我怎样才能做到这一点？

谢谢你

为了更精确：我正在使用这些库

例如关于我的结果

1 “ 可能的总统竞选活动等待翅膀的 LEAD 州长库莫宣誓就职新年前夜第二任期纽约首席执行官 LEAD 州长库莫与可能的总统竞选等待翅膀......

vocabulary 在此处输入图像描述

r text-mining corpus text2vec

2019-12-23T23:52:21.043

0 投票

1 回答

416 浏览

r - r 中 text2vect 包的手套适合功能问题

我是 R 中用于 nlp/深度学习模型的手套词嵌入的新手，但我发现它们非常有用。我在 r 中实现模型时遇到问题。当我使用正确的构造函数时：

glove <- GlobalVectors$new(word_vectors_szie = 50, vocabulary = vocab, x_max = 20)

我收到以下错误：

Error in .subset2(public_bind_env, "initialize")(...) : unused arguments (word_vectors_size = 50, vocabulary = vocab)

关于为什么的任何想法？有什么解决办法吗？

r text2vec

2020-02-11T18:43:53.937

0 投票

1 回答

295 浏览

r - R文本2vec；rsparse::GloVe$new() GlobalVectors$new() 环境设置/未设置

问题：使用库（text2vec）的 R GloVe 环境。使用 rsparse::GloVe$new() 的代码执行设置环境，但是，不使用 GlobalVectors$new() 的代码执行设置环境。

然后运行 wv_main = glove$fit_transform(tcm...)，错误：

glove$fit_transform(tcm...) 错误 tcm 是有效的 dgTmaticx，S4 数据类型，暗度为 (545 X 545)

cpp_glove_create(glove_params) 中的错误：与请求的类型不兼容：[type=S4; 目标=双]。

在 glove$fit_transform(tcm) 上寻求不兼容请求类型的帮助。

r text2vec glove

2020-03-22T05:19:39.757

0 投票

1 回答

33 浏览

r - text2vec 文档相似度代码返回两个值

我正在学习评估文档之间的文本相似性。浏览有关该主题的 text2vec 教程 ( http://text2vec.org/similarity.html )，我注意到代码返回了两个相似度值。这是 Dmitriy Selivanov 教程中代码的结尾：

[1] 300 200

哪个返回值（300 或 200）描述了文本相似性/差异？

r nlp text2vec

2020-04-28T17:14:22.237

0 投票

0 回答

172 浏览

r - 支持大型稀疏矩阵 R

R 中是否支持大型稀疏矩阵？我目前正在处理一个大约0.001密度的 1.9M 稀疏方阵。

我想在我的具有 480gb 内存的 AWS 现场实例上对 R 中这个矩阵的创建进行压力测试。

但是，我收到此错误。

是否有针对此问题的任何软件包或解决方法？最后，我将使用该reticulate包来加载一个稀疏csr矩阵numpy，以便利用更快和内存效率更高的text2vec包来运行手套，这需要数据dgCMatrix格式。

编辑

我还尝试spam使用以下代码行来模拟一个大而稀疏的矩阵。

它将运行以下警告：

直到它最终超时并显示以下错误消息：

r sparse-matrix reticulate text2vec

2020-05-07T10:44:33.050

1 2 3 4 5 6 7 8 9 10

问题标签 [text2vec]

[1] 300 200

Reference