问题标签 [text2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
142 浏览

text-mining - 使用 ldatuning 库在潜在 Dirichlet 分配模型上查找主题数量时出错

这是结果错误,我可以说这是因为至少有一个文档没有某个术语,但我不明白为什么以及如何解决它。

尽管我知道 ldatuning 是为主题模型制作的,但我认为获得一个数字开始测试可能不会有很大的不同,是吗?

0 投票
1 回答
53 浏览

r - 为什么 text2vec 的 RWMD 模块中的距离在 1 和 -1 之间?

据我了解,伟大的 text2vec 包的 dist2 RWMD 功能将矩阵之间的距离计算为余弦距离。那不是意味着 1 - (余弦相似度)吗?如果余弦相似度介于 0 和 1 之间,那么不应该导致值也介于 0 和 1 之间吗?我不确定在这种情况下如何解释负距离,以及它们与正距离有何不同。谢谢!

0 投票
1 回答
79 浏览

text - 我无法使用 text2vec 为我的测试数据创建 tf-idf 矩阵

我正在按照本教程进行操作,就像我做训练集一样,但它一直在说同样的事情。有人知道这有什么问题吗?

0 投票
1 回答
521 浏览

r - R曲线中的肘部/膝盖

我有这个数据处理:

我知道有很多这样的问题,但我一直无法准确找到我的情况的答案。在上图中,您可以看到潜在狄利克雷分配模型从 3 到 25 个主题编号的困惑度计算。我想获得其中最充分的值,这意味着我想找到肘部或膝盖,对于那些可能只被视为简单数字向量的值,其结果如下所示:

这就是情节的样子

我会说肘部是 13 或 16,但我不完全确定,我想要确切的数字作为结果。我在这篇论文中看到 f''(x) / (1+f'(x)^2)^1.5 是膝盖公式,我这样尝试并说它是 18:

我无法完全弄清楚这件事。有人想分享我如何根据困惑作为结果获得确切的理想主题编号吗?

0 投票
1 回答
66 浏览

r - 从 R 中的闪亮服务器函数返回几个对象,以便首先绘制 LDAvis 图

下面的代码是我用于在闪亮的应用程序中使用 topic_model 函数中的 text2vec 绘制 LDA 图的代码。input$date 是一个 checkboxGroupInput 选择, input$data 非常适合 DT::renderDataTable 输出和 topic_model 在应用程序之外运行良好。在这里,我找到了如何在一个闪亮的应用程序中获得 LDA 图,但我并没有真正得到它,因为它是被复制的。input$go 是一个简单的 actionButton。

这是我得到的错误:Listening on http://127.0.0.1:3363 Warning: Error in exists: invalid first argument [No stack trace available]

0 投票
1 回答
269 浏览

r - 用 R 将语料库中的两个单词组合起来

所以这是我的代码

我的 .csv 是纽约时报的文章。我想在词汇中结合“纽约”、“南非”、“埃利斯岛”等词,而不仅仅是这样的标记:“新”、“约克”等

我怎样才能做到这一点 ?

谢谢你

为了更精确:我正在使用这些库

  • 例如关于我的结果

1 “ 可能的总统竞选活动等待翅膀的 LEAD 州长库莫宣誓就职新年前夜第二任期纽约首席执行官 LEAD 州长库莫与可能的总统竞选等待翅膀......

0 投票
1 回答
416 浏览

r - r 中 text2vect 包的手套适合功能问题

我是 R 中用于 nlp/深度学习模型的手套词嵌入的新手,但我发现它们非常有用。我在 r 中实现模型时遇到问题。当我使用正确的构造函数时:

glove <- GlobalVectors$new(word_vectors_szie = 50, vocabulary = vocab, x_max = 20)

我收到以下错误:

Error in .subset2(public_bind_env, "initialize")(...) : unused arguments (word_vectors_size = 50, vocabulary = vocab)

关于为什么的任何想法?有什么解决办法吗?

0 投票
1 回答
295 浏览

r - R文本2vec;rsparse::GloVe$new() GlobalVectors$new() 环境设置/未设置

问题:使用库(text2vec)的 R GloVe 环境。使用 rsparse::GloVe$new() 的代码执行设置环境,但是,不使用 GlobalVectors$new() 的代码执行设置环境。

然后运行 ​​wv_main = glove$fit_transform(tcm...),错误:

glove$fit_transform(tcm...) 错误 tcm 是有效的 dgTmaticx,S4 数据类型,暗度为 (545 X 545)

cpp_glove_create(glove_params) 中的错误:与请求的类型不兼容:[type=S4; 目标=双]。

在 glove$fit_transform(tcm) 上寻求不兼容请求类型的帮助。

0 投票
1 回答
33 浏览

r - text2vec 文档相似度代码返回两个值

我正在学习评估文档之间的文本相似性。浏览有关该主题的 text2vec 教程 ( http://text2vec.org/similarity.html ),我注意到代码返回了两个相似度值。这是 Dmitriy Selivanov 教程中代码的结尾:

[1] 300 200

哪个返回值(300 或 200)描述了文本相似性/差异?

0 投票
0 回答
172 浏览

r - 支持大型稀疏矩阵 R

R 中是否支持大型稀疏矩阵?我目前正在处理一个大约0.001密度的 1.9M 稀疏方阵。

我想在我的具有 480gb 内存的 AWS 现场实例上对 R 中这个矩阵的创建进行压力测试。

但是,我收到此错误。

是否有针对此问题的任何软件包或解决方法?最后,我将使用该reticulate包来加载一个稀疏csr矩阵numpy,以便利用更快和内存效率更高的text2vec包来运行手套,这需要数据dgCMatrix格式。

编辑

我还尝试spam使用以下代码行来模拟一个大而稀疏的矩阵。

它将运行以下警告:

直到它最终超时并显示以下错误消息: