python - 10折交叉验证python

Question

本文中有一个使用迁移学习和 LSTM 的基于深度学习的模型，作者使用了 10 倍交叉验证（如表 3 所示）并取结果的平均值。我熟悉 10 折交叉验证，因为我们需要划分数据并传递给模型，但是在这段代码中（这里）我不知道如何划分数据并传递它。

有两个训练/测试/开发数据集（一个用于情感分析，一个用于情感分析，我们都将其用于迁移学习，但我的重点是情感分析）。原始数据在几个 txt 格式的文件中，在运行模型后，它给出了两个新的 txt 文件，一个用于预测标签，一个用于真实标签。

主文件中有一行代码：

model = BiLstm(args, data, ckpt_path='./' + args.data_name + '_output/')

if args.mode=='train':
    model.train(data)
    sess = model.restore_last_session()
    model.predict(data, sess)
if args.mode=='test':
    sess = model.restore_last_session()
    model.predict(data, sess)

其中“数据”是一类数据（代码），包括测试/训练/开发数据集：我认为我需要在此处传递划分的数据。如果我是对的，我该如何进行分区并执行 10 折交叉验证？

data = Data('./data/'+args.data_name+'data_sample.bin','./data/'+args.data_name+'vocab_sample.bin',
            './data/'+args.data_name+'word_embed_weight_sample.bin',args.batch_size)

class Data(object):
    def __init__(self,data_path,vocab_path,pretrained,batch_size):
            self.batch_size = batch_size

            data, vocab ,pretrained= self.load_vocab_data(data_path,vocab_path,pretrained)
            self.train=data['train']
            self.valid=data['valid']
            self.test=data['test']
            self.train2=data['train2']
            self.valid2=data['valid2']
            self.test2=data['test2']
            self.word_size = len(vocab['word2id'])+1
            self.max_sent_len = vocab['max_sent_len']
            self.max_topic_len = vocab['max_topic_len']
            self.word2id = vocab['word2id'] 
            word2id = vocab['word2id']                
            #self.id2word = dict((v, k) for k, v in word2id.iteritems())
            self.id2word = {}
            for k, v in six.iteritems(word2id):
                self.id2word[v]=k
            self.pretrained=pretrained

score 0 · Accepted Answer

从外观上看，train 方法似乎可以获取会话并继续从现有模型进行训练def train(self, data, sess=None)

因此，只需对现有代码和库进行非常小的更改，您就可以像

首先加载所有数据并建立模型

data = Data('./data/'+args.data_name+'data_sample.bin','./data/'+args.data_name+'vocab_sample.bin',
            './data/'+args.data_name+'word_embed_weight_sample.bin',args.batch_size)

model = BiLstm(args, data, ckpt_path='./' + args.data_name + '_output/')

然后创建交叉验证数据集，smth like

def get_new_data_object():
  return data = Data('./data/'+args.data_name+'data_sample.bin','./data/'+args.data_name+'vocab_sample.bin',
            './data/'+args.data_name+'word_embed_weight_sample.bin',args.batch_size)

cross_validation = []
for i in range(10):
  tmp_data = get_new_data_object()
  tmp_data.train= #get 90% of tmp_data['train']
  tmp_data.valid= #get 90% of tmp_data['valid']
  tmp_data.test= #get 90% of tmp_data['test']
  tmp_data.train2= #get 90% of tmp_data['train2']
  tmp_data.valid2= #get 90% of tmp_data['valid2']
  tmp_data.test2= #get 90% of tmp_data['test2']
  cross_validation.append(tmp_data)

比运行模型 n 次（10 次用于 10 倍交叉验证）

sess = null
for data in cross_validation:
  model.train(data, sess)
  sess = model.restore_last_session()

记住要注意一些关键的想法

我不知道您的数据是如何精确构造的，但这会影响将其拆分为test,train和（在您的情况下）的方式valid
数据的拆分必须是 , 的每个三元组的精确拆分test，可以随机进行，也可以每次取不同的部分，train只要一致即可valid
n您可以通过交叉验证来训练模型时间或创建n模型并选择最佳模型以避免过度拟合

这段代码只是一个草稿，你可以随意实现它，有一些很棒的库已经实现了这样的功能，当然可以优化（不是每次都读取整个数据文件）

另一个考虑是将模型创建与数据分开，尤其是data模型构造函数的 arg，从快速看起来它似乎只使用数据的维度，所以不传递整个对象是一个好习惯

此外，如果模型在其状态（创建时）中集成data对象的其他属性，例如数据本身，我的代码可能无法正常工作，并且采用更外科手术的方法

希望对您有所帮助，并为您指明正确的方向

python - 10折交叉验证python

1 回答 1

Related

Reference