5

我有一个关于阅读器的 randomizationWindow 参数的快速问题。它在文档中说它控制内存中的数据量 - 但我有点不清楚它会对数据的随机性产生什么影响。如果训练数据文件以一种数据分布开始,以另一种完全不同的分布结束,设置小于数据大小的随机化窗口是否会导致提供给训练器的数据不是来自同质分布?我只是想仔细检查一下。

4

2 回答 2

4

提供更多关于随机化/IO的细节:

所有语料库/数据总是分成块。块有助于提高 IO 效率,因为一个块的所有序列都是一次性读取的(通常一个块是 32/64MB)。

在随机化方面,有两个步骤:

  1. 所有块都是随机的
  2. 给定 N 个样本的随机化窗口,随机化器创建一个由 M 个块组成的滚动窗口,其中总共有大约 N 个样本。此滚动窗口内的所有序列都是随机的。当一个块的所有序列都被处理后,随机化器可以释放它并开始异步加载下一个。
于 2017-01-05T09:16:29.977 回答
3

当 randomizationWindow 设置为小于整个数据大小的窗口时,整个数据大小被分块为 randomizationWindow 大小的块,并且块的顺序是随机的。然后在每个块中,样本是随机的。

于 2017-01-04T23:06:35.280 回答