我正在尝试重现本教程:
https
://www.tensorflow.org/official_models/fine_tuning_bert
我下载了 Tiny 模型,在我尝试从检查点恢复权重之前一切似乎都正常。
# BERT Tiny
#
gs_folder_bert = "c:/eaf llc/aa-analytics and bi/bert_models/L2H128A2/"
#
tf.io.gfile.listdir(gs_folder_bert)
Out[3]: ['bert_config.json',
'bert_model.ckpt.data-00000-of-00001',
'bert_model.ckpt.index',
'vocab.txt']
bert_config_file = os.path.join(gs_folder_bert, "bert_config.json")
config_dict = json.loads(tf.io.gfile.GFile(bert_config_file).read())
bert_config = bert.configs.BertConfig.from_dict(config_dict)
config_dict
Out[20]: {'hidden_size': 128,
'hidden_act': 'gelu',
'initializer_range': 0.02,
'vocab_size': 30522,
'hidden_dropout_prob': 0.1,
'num_attention_heads': 2,
'type_vocab_size': 2,
'max_position_embeddings': 512,
'num_hidden_layers': 2,
'intermediate_size': 512,
'attention_probs_dropout_prob': 0.1}
bert_classifier, bert_encoder = \
bert.bert_models.classifier_model(bert_config, num_labels = 2)
到目前为止一切都很好,那么
checkpoint = tf.train.Checkpoint(encoder = bert_encoder)
checkpoint.read(
os.path.join(gs_folder_bert, 'bert_model.ckpt')).assert_consumed()
错误:
checkpoint = tf.train.Checkpoint(encoder = bert_encoder)
checkpoint.read(
os.path.join(gs_folder_bert, 'bert_model.ckpt')).assert_consumed()
---------------------------------------------------------------------------
AssertionError Traceback (most recent call last)
<ipython-input-89-badf902b60cc> in <module>
1 checkpoint = tf.train.Checkpoint(encoder = bert_encoder)
----> 2 checkpoint.read(
3 os.path.join(gs_folder_bert, 'bert_model.ckpt')).assert_consumed()
~\envs\keras-gpu-7-py-3.8\lib\site-packages\tensorflow\python\training\tracking\util.py in assert_consumed(self)
996 for obj, attributes in unused_attributes
997 ]
--> 998 raise AssertionError(
999 "Some objects had attributes which were not restored:{}".format(
1000 "".join(unused_attribute_strings)))
AssertionError: Some objects had attributes which were not restored:
<tf.Variable 'word_embeddings/embeddings:0' shape=(30522, 128) dtype=float32, numpy=
array([[-0.02526852, -0.02714981, -0.00018533, ..., 0.00713422,
-0.01207475, 0.00218781],
[-0.00501078, 0.02592205, 0.01432732, ..., 0.02760509,
0.00857059, -0.02983809],
[-0.02618211, 0.00743269, 0.01668296, ..., -0.02213793,
-0.00177867, -0.03583532],
...,
[ 0.01848662, 0.01735897, -0.00539534, ..., 0.01809413,
-0.01244173, 0.01012049],
[ 0.00526251, 0.03487387, -0.016482 , ..., 0.03866712,
0.0156721 , -0.01382882],
[ 0.02844811, 0.03052201, 0.02181973, ..., -0.01843889,
-0.03120057, -0.02923422]], dtype=float32)>: ['word_embeddings/embeddings']
<tf.Variable 'position_embedding/embeddings:0' shape=(512, 128) dtype=float32, numpy=
array([[-0.00058878, 0.00941962, 0.01837478, ..., -0.01318355,
0.00151282, 0.01073121],
[-0.00481569, -0.01206857, -0.02581431, ..., 0.0089908 ,
-0.02456968, 0.0060488 ],
[ 0.00852863, -0.03013772, -0.0283018 , ..., 0.01083988,
0.02682875, -0.01634433],
...,
[ 0.01053356, 0.01028193, 0.01282342, ..., 0.01324027,
-0.00914939, 0.01717083],
[-0.02445753, 0.00822763, 0.01420804, ..., 0.01021625,
-0.00976051, -0.0125686 ],
[-0.01318786, -0.02707533, -0.00148597, ..., 0.00108482,
-0.02183962, -0.01607669]], dtype=float32)>: ['position_embedding/embeddings']
<tf.Variable 'type_embeddings/embeddings:0' shape=(2, 128) dtype=float32, numpy=
array([[-8.18883441e-03, 1.16970739e-03, -1.75594557e-02,
2.11551469e-02, -1.08303493e-02, -2.03901604e-02,
-3.00027598e-02, -1.05549274e-02, -5.27366344e-03,
-3.06245741e-02, 1.78075419e-03, -1.60404586e-03,
-2.24455012e-04, 1.16786836e-02, -1.99379004e-03,
-1.91252194e-02, 3.36039290e-02, 9.49666646e-05,
-2.35786568e-02, -4.54737758e-03, -7.68725236e-04,
-1.21108638e-02, 1.03577878e-03, 5.19888382e-03,
9.00413282e-03, -1.22961709e-02, 1.02266790e-02,
2.33460683e-03, -1.44169983e-02, -5.35135297e-03,
-4.13505593e-03, -3.32421390e-03, -1.17918476e-02,
1.74889229e-02, -1.51827447e-02, 1.28844446e-02,
-6.17621094e-03, -1.47896986e-02, 1.50860138e-02,
3.33077344e-03, -4.30991501e-03, -1.24694975e-02,
3.02440450e-02, -8.19205865e-03, 8.51525646e-03,
-9.47160739e-03, -1.56603055e-03, -2.54253112e-02,
-1.53219504e-02, 1.74564924e-02, 6.99202484e-03,
-8.90934467e-03, -4.44195000e-03, 2.71710176e-02,
3.45618417e-03, 1.86495185e-02, 3.76033001e-02,
7.27147842e-03, -3.96002876e-03, -3.02838515e-02,
2.28338093e-02, -2.24420521e-03, -2.81353220e-02,
-1.72420386e-02, -7.98568688e-03, -1.17128175e-02,
5.83242811e-03, -1.66366473e-02, -9.74713080e-03,
-3.86725739e-03, 2.00413596e-02, -3.29323369e-03,
-7.74571579e-03, 9.50652920e-03, -4.54241317e-03,
1.11013176e-02, -1.49784051e-02, -1.96685661e-02,
2.13086270e-02, -8.56504869e-03, 1.80848520e-02,
-9.63630434e-03, 3.15211155e-02, -1.38437264e-02,
1.16334260e-02, -5.99241257e-03, -1.88654587e-02,
2.37358604e-02, 3.26549411e-02, 6.26929151e-03,
-1.51942009e-02, 1.90701596e-02, -2.15350520e-02,
-8.55402369e-03, -1.83628704e-02, 1.75926313e-02,
3.48849734e-03, 3.35168955e-03, -2.22496130e-03,
-3.17977630e-02, -8.05412326e-03, 1.20788794e-02,
1.76923871e-02, 1.36062866e-02, 1.35769916e-03,
3.15262340e-02, -8.87432229e-03, -1.30770570e-02,
3.35016251e-02, 9.14229918e-03, -5.26892953e-03,
4.34301374e-03, -1.23862969e-02, 2.81879064e-02,
-6.48130383e-03, -1.24823945e-02, 8.77799653e-03,
-6.66744681e-03, 3.96960527e-02, 1.81780998e-02,
-5.07235527e-03, 7.91142043e-03, -2.83234250e-02,
-2.30643861e-02, 1.81478243e-02, 3.14751156e-02,
5.13817463e-03, -3.44405919e-02],
[-8.95167049e-03, -8.29220098e-03, 2.55674720e-02,
-1.37246400e-03, 1.90697443e-02, 3.15711065e-03,
-2.46844254e-02, -1.63637102e-02, -1.17494520e-02,
1.98135301e-02, -1.19523853e-02, -1.09081604e-02,
-1.45562775e-02, -2.49801786e-03, 1.77524398e-05,
-6.65567524e-04, -6.75205700e-03, 3.92621791e-04,
2.27429383e-02, 3.93800996e-03, -4.19289665e-03,
2.89546861e-03, 1.82113536e-02, -2.01002136e-02,
9.26787325e-04, -3.74321244e-03, 2.27007549e-02,
-1.33252610e-02, 2.63658967e-02, -1.84642710e-02,
4.42187954e-03, 5.05304663e-03, 1.08983284e-02,
7.04425620e-03, -8.29201285e-03, 4.99755051e-03,
1.65753365e-02, 3.61004472e-03, -2.20542978e-02,
-7.65225058e-03, -1.79060246e-03, -3.99172716e-02,
3.74192634e-04, -2.28221938e-02, 3.30401212e-02,
2.33469438e-02, -1.95461586e-02, 1.17680931e-03,
-1.76271871e-02, 2.42733527e-02, -1.03357788e-02,
2.66711228e-02, 9.19540226e-03, -2.69146962e-03,
-2.25333776e-02, -9.54657514e-03, -1.50258478e-03,
-2.89669987e-02, 1.10568805e-02, -1.89862680e-02,
-6.79764058e-03, 3.20352800e-02, 1.66823864e-02,
-1.36302430e-02, 2.08736528e-02, 1.12342872e-02,
-4.82961815e-03, 9.85153206e-03, 1.88061129e-02,
4.43311688e-03, -7.30784098e-03, 1.14303054e-02,
3.04598943e-03, 1.92279108e-02, 7.83721451e-03,
-1.62594300e-03, 7.16254348e-03, 3.16277519e-02,
-1.88783351e-02, -1.39884865e-02, -2.14086734e-02,
1.97300185e-02, 1.57303996e-02, 1.26191415e-02,
3.00608072e-02, -1.36293685e-02, -7.53345527e-03,
1.27160996e-02, 5.78877341e-04, 3.53562981e-02,
2.77264081e-02, 3.86650697e-03, 2.27215234e-02,
9.82340239e-03, 2.02533696e-02, -3.72000271e-03,
2.65450738e-02, -1.36424154e-02, -1.31350374e-02,
-6.20616181e-03, -1.78491157e-02, -2.52391621e-02,
4.33665607e-03, -1.39644407e-02, 7.76519720e-03,
-1.50496446e-04, -1.12271560e-02, 6.77527767e-03,
-2.49788854e-02, 2.85457335e-02, 2.43786089e-02,
3.47488606e-03, -3.19042429e-02, 9.38390940e-03,
-1.21390831e-03, 1.11597031e-03, -1.16217947e-02,
3.44243646e-02, -5.79214748e-03, -5.54689672e-03,
1.64796785e-02, 5.17652044e-03, 7.15578860e-03,
-1.77968815e-02, -9.76859778e-03, -1.35804052e-02,
1.57279521e-02, -3.79777998e-02]], dtype=float32)>: ['type_embeddings/embeddings']
<tf.Variable 'embeddings/layer_norm/gamma:0' shape=(128,) dtype=float32, numpy=
array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32)>: ['embeddings/layer_norm/gamma']
<tf.Variable 'embeddings/layer_norm/beta:0' shape=(128,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>: ['embeddings/layer_norm/beta']
<tf.Variable 'pooler_transform/kernel:0' shape=(128, 128) dtype=float32, numpy=
array([[ 9.0573020e-03, -1.1644668e-02, 3.7043046e-05, ...,
2.8529441e-02, -3.0694918e-03, -5.2871602e-03],
[-4.4083935e-03, -1.7167995e-04, 2.3240654e-02, ...,
1.2013093e-02, 6.5150401e-03, 2.2673836e-02],
[-2.1843519e-02, -3.7946813e-02, -1.4625581e-02, ...,
-1.2963027e-02, -2.4089679e-02, -9.0357438e-03],
...,
[-7.0960140e-03, 3.8795479e-02, 1.6321072e-04, ...,
3.1680170e-02, 8.5804854e-03, 8.8337958e-03],
[-6.5164482e-03, -5.4120561e-03, -2.0878633e-02, ...,
1.0615346e-02, 2.9124537e-02, 1.3823713e-02],
[ 4.0042880e-03, -1.6610635e-02, 3.2542519e-02, ...,
-4.3779714e-03, -1.7165048e-02, -5.5731782e-03]], dtype=float32)>: ['pooler_transform/kernel']
<tf.Variable 'pooler_transform/bias:0' shape=(128,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>: ['pooler_transform/bias']
<tf.Variable 'transformer/layer_0/self_attention_layer_norm/gamma:0' shape=(128,) dtype=float32, numpy=
array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32)>: ['transformer/layer_0/self_attention_layer_norm/gamma']
<tf.Variable 'transformer/layer_0/self_attention_layer_norm/beta:0' shape=(128,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>: ['transformer/layer_0/self_attention_layer_norm/beta']
<tf.Variable 'transformer/layer_0/intermediate/kernel:0' shape=(128, 512) dtype=float32, numpy=
array([[ 0.02279624, 0.01431092, -0.00481224, ..., 0.00315256,
0.011445 , -0.00055865],
[ 0.01121335, -0.00394804, -0.00984493, ..., 0.02223055,
-0.03239682, 0.00703755],
[-0.02159077, -0.01459833, 0.0170554 , ..., -0.03332627,
-0.02555365, -0.01718007],
...,
[ 0.00030694, -0.00997158, -0.00325583, ..., -0.02032465,
0.00618992, -0.01692288],
[ 0.01948811, -0.02656929, -0.02100181, ..., 0.0348149 ,
0.0009781 , -0.00797237],
[ 0.0089405 , -0.02891897, -0.02484239, ..., 0.01639003,
0.00028729, -0.01133659]], dtype=float32)>: ['transformer/layer_0/intermediate/kernel']
<tf.Variable 'transformer/layer_0/intermediate/bias:0' shape=(512,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0.], dtype=float32)>: ['transformer/layer_0/intermediate/bias']
<tf.Variable 'transformer/layer_0/output/kernel:0' shape=(512, 128) dtype=float32, numpy=
array([[-0.01107875, -0.00685249, -0.01510729, ..., 0.0374579 ,
0.02481876, 0.00920614],
[-0.00074809, 0.0145108 , -0.01438896, ..., 0.01262349,
-0.00144794, -0.00252812],
[-0.01933711, -0.03945752, -0.02842492, ..., -0.00951812,
-0.00999318, 0.00636985],
...,
[ 0.02041206, 0.01859831, -0.01158363, ..., 0.00105016,
-0.00965613, 0.00239594],
[-0.00601701, -0.00484633, 0.01244391, ..., -0.01860846,
-0.00635495, 0.03953905],
[ 0.02319057, -0.00177373, 0.01741743, ..., -0.00256715,
0.01105414, -0.02576184]], dtype=float32)>: ['transformer/layer_0/output/kernel']
<tf.Variable 'transformer/layer_0/output/bias:0' shape=(128,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>: ['transformer/layer_0/output/bias']
<tf.Variable 'transformer/layer_0/output_layer_norm/gamma:0' shape=(128,) dtype=float32, numpy=
array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32)>: ['transformer/layer_0/output_layer_norm/gamma']
<tf.Variable 'transformer/layer_0/output_layer_norm/beta:0' shape=(128,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>: ['transformer/layer_0/output_layer_norm/beta']
<tf.Variable 'transformer/layer_1/self_attention_layer_norm/gamma:0' shape=(128,) dtype=float32, numpy=
array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32)>: ['transformer/layer_1/self_attention_layer_norm/gamma']
<tf.Variable 'transformer/layer_1/self_attention_layer_norm/beta:0' shape=(128,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>: ['transformer/layer_1/self_attention_layer_norm/beta']
<tf.Variable 'transformer/layer_1/intermediate/kernel:0' shape=(128, 512) dtype=float32, numpy=
array([[-0.01687227, -0.01782197, -0.00424156, ..., 0.00412051,
-0.00930495, 0.00469817],
[ 0.03220162, 0.01579665, -0.01248357, ..., -0.00799766,
-0.01014247, -0.0014625 ],
[-0.00317007, -0.00639517, 0.01926536, ..., 0.0208634 ,
0.01093147, 0.01159717],
...,
[-0.00189044, -0.01116243, -0.00068778, ..., 0.018404 ,
0.0293561 , -0.00126851],
[ 0.00395205, 0.01007508, -0.02553256, ..., 0.02298971,
0.00200475, 0.01985444],
[-0.01909758, -0.03857816, 0.02618832, ..., -0.00124829,
-0.03205794, -0.00199627]], dtype=float32)>: ['transformer/layer_1/intermediate/kernel']
<tf.Variable 'transformer/layer_1/intermediate/bias:0' shape=(512,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0.], dtype=float32)>: ['transformer/layer_1/intermediate/bias']
<tf.Variable 'transformer/layer_1/output/kernel:0' shape=(512, 128) dtype=float32, numpy=
array([[ 0.02586066, 0.01569208, 0.00612783, ..., 0.01230561,
-0.01616171, -0.00893163],
[ 0.00789993, -0.03572457, -0.01697584, ..., -0.01266899,
-0.01093292, 0.03859758],
[-0.0133927 , 0.03270649, 0.00991104, ..., -0.00228084,
-0.01551903, -0.00461608],
...,
[ 0.02229238, -0.02094629, 0.00474225, ..., 0.01309798,
-0.00847525, -0.00608633],
[-0.02532623, -0.01042034, -0.02486886, ..., 0.00798714,
-0.0170515 , 0.01436753],
[ 0.02954846, 0.00015935, 0.00135899, ..., -0.00350464,
-0.00422482, -0.02502733]], dtype=float32)>: ['transformer/layer_1/output/kernel']
<tf.Variable 'transformer/layer_1/output/bias:0' shape=(128,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>: ['transformer/layer_1/output/bias']
<tf.Variable 'transformer/layer_1/output_layer_norm/gamma:0' shape=(128,) dtype=float32, numpy=
array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32)>: ['transformer/layer_1/output_layer_norm/gamma']
<tf.Variable 'transformer/layer_1/output_layer_norm/beta:0' shape=(128,) dtype=float32, numpy=
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>: ['transformer/layer_1/output_layer_norm/beta']
<tf.Variable 'transformer/layer_0/self_attention/query/kernel:0' shape=(128, 2, 64) dtype=float32, numpy=
array([[[ 3.47513966e-02, 1.16443532e-02, -5.09533705e-03, ...,
-1.98813584e-02, -2.39949562e-02, -1.07128285e-02],
[-2.62990724e-02, -1.23620713e-02, -7.23728817e-03, ...,
-3.73519352e-03, 6.65954221e-03, -4.00565751e-03]],
[[-1.14675593e-02, 7.29339523e-03, 2.17558704e-02, ...,
1.21740894e-02, -8.97176936e-03, 7.91454315e-03],
[-1.86569057e-02, 6.59476453e-03, -8.35126266e-03, ...,
-1.79078300e-02, 2.27957927e-02, 2.68377159e-02]],
[[ 1.57035496e-02, -1.59394220e-02, 2.10188739e-02, ...,
-2.43961569e-02, -1.52621996e-02, 2.62230374e-02],
[ 5.21274935e-03, -3.66398767e-02, 1.60690453e-02, ...,
-6.60821825e-05, 9.40730982e-03, 2.45365091e-02]],
...,
[[-7.07488833e-03, -1.41646340e-03, -3.46831442e-03, ...,
-8.96838307e-03, 3.88504099e-03, 1.72261486e-03],
[ 3.62210849e-04, 1.06486883e-02, -1.38937403e-02, ...,
-2.02671587e-02, 3.94011885e-02, 1.14039630e-02]],
[[-6.19331840e-03, -5.16502885e-03, -2.93621561e-03, ...,
-2.69051865e-02, -2.99590696e-02, 2.88765226e-02],
[ 1.50969438e-03, 3.34041752e-02, 9.22954269e-03, ...,
-3.58722471e-02, -2.89838156e-03, -1.39200045e-02]],
[[-1.67493299e-02, 2.21273489e-02, 1.64483953e-02, ...,
-1.80476010e-02, 3.99650820e-03, 1.35363098e-02],
[-4.12794761e-03, 3.34069692e-02, -1.66792851e-02, ...,
-1.29955420e-02, -1.55269001e-02, 1.18839345e-03]]],
dtype=float32)>: ['transformer/layer_0/self_attention/query/kernel']
<additional listing deleted for space>
我尝试了对命名的各种调整,但都没有效果,我对此进行了审查: AssertionError: Some objects have attributes which are not restore
但这不是我的问题。
我还尝试从 TFhub 而不是 github repo 下载模型;那些是明确的 TF2 但我最终得到了同样的错误。