我们正在使用由两个不同作者的所有书籍组成的数据集,通过 torch-rnn(和 tensorflow char-rnn 作为测试)生成新内容。
我们当前的数据集大约为 6MB,我想知道如果我简单地复制粘贴数据以将输入网络的字符数量加倍 - 从 6MB 到 12MB / 24 / (...) 120MB 会发生什么?- 同时根据数据集的新权重增加 rnn 大小和层数?是不是更糟糕?网络是否有机会达到更好的困惑?
谢谢您的回答 !
我们正在使用由两个不同作者的所有书籍组成的数据集,通过 torch-rnn(和 tensorflow char-rnn 作为测试)生成新内容。
我们当前的数据集大约为 6MB,我想知道如果我简单地复制粘贴数据以将输入网络的字符数量加倍 - 从 6MB 到 12MB / 24 / (...) 120MB 会发生什么?- 同时根据数据集的新权重增加 rnn 大小和层数?是不是更糟糕?网络是否有机会达到更好的困惑?
谢谢您的回答 !
简短的回答是否定的,它没有任何意义。ML 方法的数据量不是以存储文件的 MB 来衡量的,而是以您提供的信息量来衡量的。复制现有数据不会提供任何新信息,因此实际上什么也没做。请注意,RNN 的训练不是基于一次处理数据,而是多次处理 - 这应该向您展示为什么复制数据集没有任何改变(一次通过 2 个数据副本和通过一个数据两次有什么区别复制?)
数据增强是一个提供新信息的过程,这就是为什么对于图像处理人们会随机旋转图像、裁剪它们等,因为这为您的模型提供了关于哪些类型的转换不会影响标签的信息。语言增强要困难得多,因为语言具有非常复杂的规则,例如,您可以尝试使用基于 wordnet 的同义词替换一些单词,但这只是一种可能会失败的启发式方法(因为您需要在给定的含义,而不仅仅是每个单词的出现)。