我正在尝试使用 torchtext 进行序列标记,其中序列是句子。所以每个Example
都是句子及其标签的列表:
[
{
'texts': ["An example.", "It's the data.", "I'm talking about it."],
'labels': [0,2,0]
},
{ 'texts': ["This is another example", "This is also data."],
'labels': [0,1]
}
]
当然,我仍然想要单词级别的标记化和词汇,但似乎没有明显的方法可以做到这一点。例如,TabularDataset
需要一个Field
适用于每个示例元素的 s 列表,但我想将文本字段映射到构成输入的句子列表中。
我想也许这就是NestedField
目的,但它似乎专门针对字符嵌入。
我错过了什么吗?使用torchtext这可能(没有太多麻烦)吗?我完全愿意接受不作为答案:)