问题标签 [doc2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - gensim中TaggedDocument和TaggedLineDocument的区别?以及如何处理目录中的文件?
我是 doc2vec 的新手,我希望使用它对一组文本进行分类。
我对 TaggedDocument 和 TaggedLineDocument 感到困惑。
1)两者有什么区别?TaggedLineDocument 是 TaggedDocuments 的集合吗?
2)如果我有一个包含所有文件的目录,如何为它们生成特征向量?我应该创建一个新文件,其中每一行都包含目录中文件的文本吗?
python - 如何在 gensim 中使用 TaggedDocument?
我有两个目录,我想从中读取它们的文本文件并标记它们,但我不知道如何通过TaggedDocument
. 我认为它可以作为 TaggedDocument([Strings],[Labels]) 工作,但这显然不起作用。
这是我的代码:
这是我得到的错误:
doc2vec - 使用 doc2vec 从一列行文本中识别产品名称
我有一列行文本。从行文本列中,我会得到类似于产品名称列表的名称。我正在使用 Doc2Vec 来解决这个问题。但是我的成绩一直很差。哪个是解决这个问题的正确方法?
我的数据如下: LINE TEXT: 托盘 10kg 鸡肉weldcote 金属物流 100th main, bolulvedour ave 19th main ST john 5670987
我用来获得最相似名称的产品列表是 mat_subset=[英国尺码 10 鞋、超干饰边、重 10 公斤的盒子、托盘等]
我的行文本是我的 OCR 输出,非常不错。我使用的 Doc2Vec 代码如下。
这是我用过的代码。其中 mat_subset 是我的产品名称列表。我对python很陌生,如果我做错了什么,请纠正我
python - Gensim Doc2Vec 为模型生成巨大的文件
我正在尝试从 gensim 包运行 doc2vec 库。我的问题是,当我训练和保存模型时,模型文件相当大(2.5 GB),我尝试使用这一行:
但这并没有改变什么。我还尝试更改 max_vocab_size 以减少空间。但是没有运气。有人可以帮我解决这个问题吗?
python - Doc2Vec 比 Word2Vec 向量的平均值或总和更差
我正在训练一个Word2Vec
模型,例如:
和Doc2Vec
模型如:
具有相同的数据和可比的参数。
在此之后,我将这些模型用于我的分类任务。而且我发现,简单地对word2vec
文档的嵌入进行平均或求和比使用doc2vec
向量要好得多。我还尝试了更多的doc2vec
迭代(25、80 和 150 - 没有区别)。
任何提示或想法为什么以及如何改善doc2vec
结果?
更新:这是如何doc2vec_tagged_documents
创建的:
关于我的数据的更多事实:
- 我的训练数据包含 4000 个文档
- 平均900字。
- 我的词汇量大约是1000字。
- 我用于分类任务的数据平均要小得多(平均 12 个单词),但我也尝试将训练数据拆分为行并
doc2vec
像这样训练模型,但结果几乎相同。 - 我的数据与自然语言无关,请记住这一点。
nlp - 我可以从 doc2vec 模型的输出创建主题模型(例如 LDA)吗?
我确实使用 Doc2Vec 在我的语料库上记录了相似性,但它输出的相似性并不好。我想知道是否可以根据 Doc2Vec 提供的主题模型来提高模型的准确性以获得更好的相似性?
python - 文档聚类和可视化
我想测试一组文档是否有一些特殊的相似性,查看一个用每个人的向量表示构建的图,与其他文档的文本数据集一起显示。我猜他们会在一个可视化中在一起。
解决方案是使用 doc2vec 计算每个文档的向量并绘制它?可以以无人监督的方式完成吗?我应该使用哪个 python 库来获得 Word2vec 的那些漂亮的 2D 和 3D 表示?
gensim - 为什么 Doc2Vec.scale_vocab(...)['memory']['vocab'] 除以 700 得到词汇量?
来自https://github.com/RaRe-Technologies/gensim/blob/master/docs/notebooks/doc2vec-wikipedia.ipynb的 Doc2Vec 维基百科教程
输出是:
在原始论文中,他们将词汇量设置为 915,715。如果我们设置 min_count = 19,词汇量似乎相似。(词汇量 = 898,725)
700
似乎相当武断,我在docs中没有看到任何提及。
python - Gensim Doc2vec 模型聚类成 K-means
我是 doc2vec 的新手,我希望你们中的一些人可以帮助我解决这个问题。我问过很多人关于这个问题,但没有人知道解决方案。
我想做的是将 Doc2vec 结果聚类到 k-means 中。请看下面的代码。
我收到此错误。
python - Gensim Doc2Vec 模型只生成有限数量的向量
我正在使用 gensim Doc2Vec模型来生成我的特征向量。这是我正在使用的代码(我已经解释了代码中的问题):
我只是想知道我是否做错了,或者是否应该设置任何其他参数?
更新:我正在使用TaggedDocument中的tags参数,当我将其更改为文本和数字的混合时,例如:Doc1、Doc2、...我看到生成向量的计数不同,但我仍然没有具有与预期相同数量的特征向量。