2

我在没有所有花哨的术语的情况下学习了后院蟒蛇,我遇到了这个腌制文件的描述......

“腌制文件代表 3 个列表的元组:训练集、验证集和测试集。这三个列表中的每一个都是由图像列表和每个图像的类标签列表组成的一对。一个图像表示为 784 (28 x 28) 个介于 0 和 1 之间的浮点值的 numpy 一维数组(0 代表黑色,1 代表白色)。标签是 0 到 9 之间的数字,表示图像代表的数字。

(来自http://deeplearning.net/tutorial/gettingstarted.html

我试图在脑海中想象它(这是他们想要腌制的格式,所以我不能只修改它),这是否意味着文件是

(1)三个List,每个List由两个List组成,一个有图片,一个有标签,

(2)三个List,每个List由元组组成,其中(tuple[0]为image,tuple[1]为label)

或者是其他东西?

4

2 回答 2

4

以下是调查数据拓扑的方法:

In [1]: import cPickle
In [2]:
In [3]: f = cPickle.load(open('mnist.pkl', 'rb'))

In [4]: type(f)
Out[4]: tuple

In [5]: len(f)
Out[5]: 3

In [6]: type(f[0])
Out[6]: tuple

In [7]: len(f[0])
Out[7]: 2

In [8]: type(f[0][0])
Out[8]: numpy.ndarray

In [9]: len(f[0][0])
Out[9]: 50000

In [10]: f[0][0].shape
Out[10]: (50000, 784)
于 2013-06-13T18:55:15.773 回答
2
training_set is ([image,image,image,...],[label,label,label,...])
validation_set is ([image,image,image,...],[label,label,label,...])
testing_set is ([image,image,image,...],[label,label,label,...])

放在一起作为一个三元组:

(
    ([image,image,image,...],[label,label,label,...]),
    ([image,image,image,...],[label,label,label,...]),
    ([image,image,image,...],[label,label,label,...])
)

“学习者”将从训练集中自学,然后验证它从验证集中学到的东西,然后测试集就是“真实世界”的实时数据。

于 2013-06-13T18:53:12.457 回答