我是新手,torchtext
我一直在使用Multi30k
数据集来学习基础知识。在学习基础知识的过程中,我想使用其他数据集,例如IWSLT2017
. 我阅读了文档,他们向我展示了如何加载数据。
这就是我加载Multi30k
数据集的方式
# creating the fields
SRC = data.Field(
tokenize = tokenize_de,
lower= True,
init_token = "<sos>",
eos_token = "<eos>"
)
TRG = data.Field(
tokenize = tokenize_en,
lower= True,
init_token = "<sos>",
eos_token = "<eos>"
)
### Splitting the sets
train_data, valid_data, test_data = datasets.Multi30k.splits(
exts=('.de', '.en'),
fields = (SRC, TRG)
)
当我运行这个:
print(vars(train_data.examples[0]))
我明白了:
{'src': ['zwei', 'junge', 'weiße', 'männer', 'sind', 'im', 'freien', 'in', 'der', 'nähe', 'vieler', 'büsche', '.'], 'trg': ['two', 'young', ',', 'white', 'males', 'are', 'outside', 'near', 'many', 'bushes', '.']}
我的问题是我如何IWSLT2017
在调用时加载以获得类似的结果print(vars(train_data.examples[0]))
。
这是我尝试过的:
from torchtext.datasets import IWSLT2017
train_iter, valid_iter, test_iter = IWSLT2017(
root='.data', split=('train', 'valid', 'test'), language_pair=('it', 'en')
)
src_sentence, tgt_sentence = next(train_iter)
它返回给我一个如下所示的元组:
('Sono impressionato da questa conferenza, e voglio ringraziare tutti voi per i tanti, lusinghieri commenti, anche perché... Ne ho bisogno!!!\n',
'I have been blown away by this conference, and I want to thank all of you for the many nice comments\n')
我的问题是我怎样才能从这一步转移到得到这样的东西的步骤:
{'src': ['zwei', 'junge', 'weiße', 'männer', 'sind', 'im', 'freien', 'in', 'der', 'nähe', 'vieler', 'büsche', '.'], 'trg': ['two', 'young', ',', 'white', 'males', 'are', 'outside', 'near', 'many', 'bushes', '.']}
任何帮助输入将不胜感激。