dataset - 人工增强数据集和 LSTM/RNN 网络？

Question

我们正在使用由两个不同作者的所有书籍组成的数据集，通过 torch-rnn（和 tensorflow char-rnn 作为测试）生成新内容。

我们当前的数据集大约为 6MB，我想知道如果我简单地复制粘贴数据以将输入网络的字符数量加倍 - 从 6MB 到 12MB / 24 / (...) 120MB 会发生什么？- 同时根据数据集的新权重增加 rnn 大小和层数？是不是更糟糕？网络是否有机会达到更好的困惑？

谢谢您的回答！

score 1 · Accepted Answer

简短的回答是否定的，它没有任何意义。ML 方法的数据量不是以存储文件的 MB 来衡量的，而是以您提供的信息量来衡量的。复制现有数据不会提供任何新信息，因此实际上什么也没做。请注意，RNN 的训练不是基于一次处理数据，而是多次处理 - 这应该向您展示为什么复制数据集没有任何改变（一次通过 2 个数据副本和通过一个数据两次有什么区别复制？）

数据增强是一个提供新信息的过程，这就是为什么对于图像处理人们会随机旋转图像、裁剪它们等，因为这为您的模型提供了关于哪些类型的转换不会影响标签的信息。语言增强要困难得多，因为语言具有非常复杂的规则，例如，您可以尝试使用基于 wordnet 的同义词替换一些单词，但这只是一种可能会失败的启发式方法（因为您需要在给定的含义，而不仅仅是每个单词的出现）。

dataset - 人工增强数据集和 LSTM/RNN 网络？

1 回答 1

Related

Reference