在不同大小的数据集上训练时,doc2vec 的表现如何?原始语料库中没有提到数据集大小,所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少。
问问题
3336 次
1 回答
12
很多东西都被称为“doc2vec”,但它似乎最常指的是 Le 和 Mikolov 的“段落向量”技术。
最初的“段落向量”论文描述了在三个数据集上对其进行评估:
- 'Stanford Sentiment Treebank':11,825 句电影评论(进一步分为 239,232 个片段,每个片段只有几个词)
- “IMDB 数据集”:100,000 条电影评论(通常每条几百字)
- 搜索结果“片段”段落:10,000,000 个段落,从前 10 个最常见查询的前 10 个 Google 搜索结果中收集
前两个是公开的,因此您还可以查看它们的总大小、典型文档大小和词汇表。(但请注意,没有人能够在前两个数据集中的任何一个上完全重现该论文的情绪分类结果,这意味着他们的报告中有一些信息缺失或错误。有可能接近 IMDB 数据集。)
后续论文将该算法应用于发现数据集中的主题关系:
- 维基百科:4,490,000 篇文章正文
- Arxiv:从 PDF 中提取的 886,000 篇学术论文文本
因此,这两篇早期论文中使用的语料库从几万到几百万个文档不等,文档大小从几个词组到几千个词的文章。(但这些作品不一定混合了大小差异很大的文件。)
一般来说,word2vec/段落向量技术受益于大量数据和各种单词上下文。如果没有至少数万份文件,我不会期望有好的结果。长于几个单词的文档效果要好得多。如果在同一训练中混合大小或种类差异很大的文档(例如混合推文和书籍),结果可能更难解释。
但是你真的必须用你的语料库和目标来评估它,因为出于某些目的,对某些数据有效的方法可能无法推广到非常不同的项目。
于 2017-08-30T21:51:04.037 回答