问题标签 [text2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text-mining - 使用 ldatuning 库在潜在 Dirichlet 分配模型上查找主题数量时出错
这是结果错误,我可以说这是因为至少有一个文档没有某个术语,但我不明白为什么以及如何解决它。
尽管我知道 ldatuning 是为主题模型制作的,但我认为获得一个数字开始测试可能不会有很大的不同,是吗?
r - 为什么 text2vec 的 RWMD 模块中的距离在 1 和 -1 之间?
据我了解,伟大的 text2vec 包的 dist2 RWMD 功能将矩阵之间的距离计算为余弦距离。那不是意味着 1 - (余弦相似度)吗?如果余弦相似度介于 0 和 1 之间,那么不应该导致值也介于 0 和 1 之间吗?我不确定在这种情况下如何解释负距离,以及它们与正距离有何不同。谢谢!
text - 我无法使用 text2vec 为我的测试数据创建 tf-idf 矩阵
我正在按照本教程进行操作,就像我做训练集一样,但它一直在说同样的事情。有人知道这有什么问题吗?
r - 从 R 中的闪亮服务器函数返回几个对象,以便首先绘制 LDAvis 图
下面的代码是我用于在闪亮的应用程序中使用 topic_model 函数中的 text2vec 绘制 LDA 图的代码。input$date 是一个 checkboxGroupInput 选择, input$data 非常适合 DT::renderDataTable 输出和 topic_model 在应用程序之外运行良好。在这里,我找到了如何在一个闪亮的应用程序中获得 LDA 图,但我并没有真正得到它,因为它是被复制的。input$go 是一个简单的 actionButton。
这是我得到的错误:Listening on http://127.0.0.1:3363
Warning: Error in exists: invalid first argument
[No stack trace available]
r - r 中 text2vect 包的手套适合功能问题
我是 R 中用于 nlp/深度学习模型的手套词嵌入的新手,但我发现它们非常有用。我在 r 中实现模型时遇到问题。当我使用正确的构造函数时:
glove <- GlobalVectors$new(word_vectors_szie = 50, vocabulary = vocab, x_max = 20)
我收到以下错误:
Error in .subset2(public_bind_env, "initialize")(...) : unused arguments (word_vectors_size = 50, vocabulary = vocab)
关于为什么的任何想法?有什么解决办法吗?
r - R文本2vec;rsparse::GloVe$new() GlobalVectors$new() 环境设置/未设置
问题:使用库(text2vec)的 R GloVe 环境。使用 rsparse::GloVe$new() 的代码执行设置环境,但是,不使用 GlobalVectors$new() 的代码执行设置环境。
然后运行 wv_main = glove$fit_transform(tcm...),错误:
glove$fit_transform(tcm...) 错误 tcm 是有效的 dgTmaticx,S4 数据类型,暗度为 (545 X 545)
cpp_glove_create(glove_params) 中的错误:与请求的类型不兼容:[type=S4; 目标=双]。
在 glove$fit_transform(tcm) 上寻求不兼容请求类型的帮助。
r - text2vec 文档相似度代码返回两个值
我正在学习评估文档之间的文本相似性。浏览有关该主题的 text2vec 教程 ( http://text2vec.org/similarity.html ),我注意到代码返回了两个相似度值。这是 Dmitriy Selivanov 教程中代码的结尾:
[1] 300 200
哪个返回值(300 或 200)描述了文本相似性/差异?
r - 支持大型稀疏矩阵 R
R 中是否支持大型稀疏矩阵?我目前正在处理一个大约0.001
密度的 1.9M 稀疏方阵。
我想在我的具有 480gb 内存的 AWS 现场实例上对 R 中这个矩阵的创建进行压力测试。
但是,我收到此错误。
是否有针对此问题的任何软件包或解决方法?最后,我将使用该reticulate
包来加载一个稀疏csr
矩阵numpy
,以便利用更快和内存效率更高的text2vec
包来运行手套,这需要数据dgCMatrix
格式。
编辑
我还尝试spam
使用以下代码行来模拟一个大而稀疏的矩阵。
它将运行以下警告:
直到它最终超时并显示以下错误消息: