问题标签 [text2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
360 浏览

r - 将 text2vec dtm 写入文件(csv 或 svmlight)

我今天遇到了 text2vec 包,这正是我解决特定问题所需要的。但是,我无法弄清楚如何将使用 text2vec 创建的 dtm 导出到某种输出文件。我的最终目标是使用 text2vec 在 R 中生成特征,并将生成的矩阵导入 H2O 以进行进一步建模。H2O 可以读取 CSV 或 SVMLight 格式。

我创建的第一个是987753 x 8806 sparse Matrix of class "dgCMatrix", with 3625049 entries,所以它很大。无法使用 as.matrix() 将其写入 CSV,因为它太大了。我认为我可能能够轻松地将其写成 SVMLight 格式,但一直无法找到可以工作的库。任何人都有任何其他选项可以将此输出转换为我可以读入 H2O 的文件?

0 投票
1 回答
1144 浏览

r - 如何从 text2vec LDA 中获取主题概率表

text2vec 包中的 LDA 主题建模非常棒。确实比topicmodel快很多

但是,我不知道如何获取每个文档属于每个主题的概率,如下例所示:

这是 text2vec lda 的代码

0 投票
3 回答
747 浏览

r - 有效地替换 text2vec 中的单词

我有一个很大的文本正文,我想有效地用它们各自的同义词替换单词(例如用同义词“car”替换所有出现的“automobile”)。但我很难找到一种合适的(有效的方法)来做到这一点。

对于以后的分析,我使用该text2vec库并希望将该库用于此任务(避免tm减少依赖关系)。

一种(低效)方式如下所示:

我的蛮力解决方案是有这样的东西并使用循环来查找单词并替换它们

我曾经使用MrFlick 的tm这种方法(使用and )来做到这一点,但我想通过替换更快的.tm::content_transformertm::tm_maptmtext2vec

我想最佳解决方案是以某种方式使用text2vecs itoken,但我不确定如何使用。有任何想法吗?

0 投票
1 回答
1065 浏览

sparse-matrix - 从 Google Ngrams 中有效地导出术语共现矩阵

我需要使用来自Google Books N-grams的词汇数据来构造一个术语共现的(稀疏!)矩阵(其中行是单词,列是相同的单词,并且单元格反映了它们在同一个词中出现的次数上下文窗口)。然后,生成的 tcm 将用于测量一堆词汇统计数据,并作为向量语义方法(Glove、LSA、LDA)的输入。

作为参考,Google Books (v2) 数据集的格式如下(制表符分隔)

但是,问题当然是,这些数据非常庞大。虽然,我只需要某些几十年的数据子集(大约 20 年的 ngrams),并且我对最多 2 个上下文窗口感到满意(即,使用 trigram 语料库)。我有一些想法,但没有一个看起来特别好。

-想法1-最初或多或少是这样的:

但是,我有一种预感,这可能不是最好的解决方案。ngram 数据文件已经包含 n-gram 形式的共现数据,并且有一个标签给出频率。我感觉应该有更直接的方法。

-想法 2-我还考虑将每个过滤的 ngram 仅一次放入新文件中(而不是复制它match_count多次),然后创建一个空的 tcm,然后循环整个(按年份过滤的)ngram 数据集并记录实例(使用match_count标签)任何两个词同时出现以填充 tcm。但是,同样,数据很大,这种循环可能需要很长时间。

- 想法 3-我发现了一个名为google-ngram-downloader的 Python 库,它显然具有共现矩阵创建功能,但查看代码,它将创建一个常规(非稀疏)矩阵(考虑到大多数情况,这将是巨大的条目是 0),并且(如果我做对了)它只是循环遍历所有内容(我假设对这么多数据的 Python 循环会超级慢),所以它似乎更针对相当小的数据子集。

编辑 -Idea 4-遇到这个旧的 SO 问题,询问有关使用 Hadoop 和 Hive 执行类似任务的问题,简短的回答带有断开的链接和关于 MapReduce 的评论(我都不熟悉,所以我不知道在哪里开始)。


我想我不能成为第一个需要处理这样一个任务的人,因为 Ngram 数据集的流行,以及在 tcm 或 dtm 输入上运行的(非 word2vec)分布式语义方法的流行; 因此->

...问题:从 Google Books Ngram 数据构建词项共现矩阵的更合理/有效的方法是什么?(无论是完全不同的提议想法的变体;R 首选但不是必需的)

0 投票
1 回答
904 浏览

r - Apply text2vec embeddings to new data

I used text2vec to generate custom word embeddings from a corpus of proprietary text data that contains a lot of industry-specific jargon (thus stock embeddings like those available from google won't work). The analogies work great, but I'm having difficulty applying the embeddings to assess new data. I want to use the embeddings that I've already trained to understand relationships in new data. the approach I'm using (described below) seems convoluted, and it's painfully slow. Is there a better approach? Perhaps something already built into the package that I've simply missed?

Here's my approach (offered with the closest thing to reproducible code I can generate given that I'm using a proprietary data source):

d = list containing new data. each element is of class character

vecs = the word vectorizations obtained form text2vec's implementation of glove

#xA;

For my use case, I need to keep the results separate for each document, so anything that involves pasting-together the elements of d won't work, but surely there must be a better way than what I've cobbled together. I feel like I must be missing something rather obvious.

Any help will be greatly appreciated.

0 投票
1 回答
363 浏览

r - 在 R text2vec 中绘制文档修剪对文本语料库的影响

prune_vocabulary申请入包后是否可以查看语料库中还有多少文件text2vec

这是获取数据集并修剪词汇表的示例

有没有一种简单的方法可以了解我的文本语料库中的参数term_count_mindoc_proportion_min参数的激进程度。我正在尝试做一些类似于stmpackage 如何让我们使用plotRemoved产生如下图的函数来处理这个问题的事情:

在此处输入图像描述

0 投票
1 回答
767 浏览

r - 使用方法中的错误(“itoken”)

我有一个数据框 IRC_DF,我想在输入对象上创建一个迭代器到词汇表,为此我尝试这样做:

但我得到这个错误:

请问有什么想法吗?

0 投票
0 回答
185 浏览

r - text2vec tfidf 在 R 中失败并带有奇怪的消息

当我尝试在我的语料库上使用 tf-idf 时遇到了一个奇怪的问题。

这是我的代码:

当我运行它时,它在 fit_transform 部分失败,并显示以下消息:

'names' 属性 [90214] 必须与向量 [10] 的长度相同

有没有人遇到过这样的问题?

谢谢!

更新:我对电影评论数据集做了同样的事情:

我仍然有同样的错误:

.local(x, na.rm, dims, ...) 中的错误:“名称”属性 [5000] 必须与向量 [10] 的长度相同

0 投票
2 回答
1702 浏览

r - 如何使用 text2vec 手套功能解决 R 错误:未使用的参数(grain_size = 100000)?

尝试通过文档中的 text2vec 小插图和此处为一些推文创建词嵌入:

几乎按照给出的指南进行操作:

但是,每当我开始执行时glove_model,我都会收到以下错误:

*我确实尝试过使用,但我得到了错误,尽管重新安装了 text2vec 包并ing 它GloVe,但 R 找不到该函数。require

为了检查以确保我的数据不是某种格式问题,我尝试使用数据运行代码movie_review并遇到同样的问题。为了彻底起见,我还尝试指定grain_size参数,但得到相同的错误。我检查了 Git 存储库上的问题,在此站点或互联网查询中没有看到任何内容。

其他人遇到这个还是新人的问题?

0 投票
1 回答
252 浏览

r - text2vec包可以拆分中文句子吗?

如何在text2vec中设置itoken来分割中文句子?例子是英文的!有现成的中文分词包:jieba等。不过,我想用text2vec做文本聚类和LDA模型。另外,如何进行文本聚类?