使用 pytorch 的 torchtext 构建文本分类模型。词汇对象在 data.field 中:
def create_tabularDataset_object(self,csv_path):
self.TEXT = data.Field(tokenize=self.tokenizer,batch_first=True,include_lengths=True)
self.LABEL = data.LabelField(dtype = torch.float,batch_first=True)
def get_vocab_with_glov(self,data):
# initialize glove embeddings
self.TEXT.build_vocab(data,min_freq=100,vectors = "glove.6B.100d")
训练后,在生产中为模型提供服务时,我如何持有 TEXT 对象?在预测时我需要它来索引单词标记
[TEXT.vocab.stoi[t] for t in tokenizedׁ_sentence]
我是否遗漏了某些东西并且没有必要持有该对象?除了模型重量,我还需要其他文件吗?