1

我正在尝试使用 torchtext 进行序列标记,其中序列是句子。所以每个Example都是句子及其标签的列表:

[ 
  {
    'texts': ["An example.", "It's the data.", "I'm talking about it."],
    'labels': [0,2,0]
  },
  { 'texts': ["This is another example", "This is also data."],
    'labels': [0,1]
  }
] 

当然,我仍然想要单词级别的标记化和词汇,但似乎没有明显的方法可以做到这一点。例如,TabularDataset需要一个Field适用于每个示例元素的 s 列表,但我想将文本字段映射到构成输入的句子列表中。

我想也许这就是NestedField目的,但它似乎专门针对字符嵌入。

我错过了什么吗?使用torchtext这可能(没有太多麻烦)吗?我完全愿意接受不作为答案:)

4

1 回答 1

0

下面是一个如何使用 Field 和 NestedField 的示例:

NESTING_FIELD = Field(batch_first=True, tokenize=clean_string)
TEXT_FIELD = NestedField(NESTING_FIELD, tokenize=split_sents)
于 2020-01-07T13:11:31.627 回答