我有两个单独的文件,一个是文本文件,每一行都是一个文本。另一个文件包含相应行的类标签。如何将其加载到 PyTorch 并进行进一步的标记化、嵌入等?
问问题
2071 次
1 回答
0
你已经尝试过什么?您所描述的仍然不是很与 PyTorch 相关,您可以制作一个预处理脚本,将所有句子加载到单个数据结构中,例如:(文本,标签)元组列表。您也可以已经将数据拆分为训练和在此步骤中设置的保留。然后,您可以将所有这些转储到 .csv 文件中。
然后,一种方法是分 3 个步骤:
- 实现类Dataset - 有效地加载您的数据,读取生成的 .csv 文件;
- 有另一个像Vocabulary一样,保持从标记到 id 的映射,反之亦然;
- 类似于Vectorizer的东西,可以将您的句子转换为向量,可以是单热编码或嵌入;
然后,您可以使用它来生成句子的向量表示,并将其传递给神经网络。
查看此笔记本以更详细地了解所有这些:
于 2019-03-18T11:23:15.083 回答