下面的数据集由句子组成,其中每个单词都被单独标记。我想把它分成两个变量来训练我的模型。记录由空行分隔,每条记录跨越多行,其中单词和标签以逗号分隔。
how,SW
is,SW
the,SW
weather,WTR
?,.
# blank line
will,SW
it,SW
rain,RAIN
this,ADJ
weekend,TIME
?,.
我想处理这个输入文件以生成预期的输出,如下所示:
X 变量必须包含每条记录的所有单词作为单独的列表:
[[how, is, the, weather, ?], [will it rain this weekend, ?]]
Y 变量必须包含每条记录的标签作为单独的列表:
[[SW, SW, SW, WTR, .], [SW, SW, RAIN, ADJ, TIME, .]]
请建议。谢谢!