我正在从头开始训练一个模型来从文本中预测食物。我已经标记了大约 500 个句子来训练我的模型,并且准确性非常好。但是,我有点担心看不见的真实世界数据,所以我想出了一个有趣的想法。所以我想知道一些有经验的人在这个有趣的想法中的想法。
所以这个想法是将 500 个句子转换成 10000 个句子。为此,我首先用标签替换了实际实体,然后填充了可能的实体。示例如下:
原训练句:
- “乐购去年卖了五万比萨。”——食物=比萨
- “他一个人的时候喜欢吃布丁。” --- 食物 = 布丁
- “乐购去年卖了五万。”
- “他一个人的时候喜欢吃东西。”
食物清单:
- 比萨
- 布丁
新生成的训练句子:
- “乐购去年卖了五万比萨。”——食物=比萨
- “乐购去年卖了五万布丁。”——食物=布丁
- “他喜欢在一个人的时候吃披萨。” --- 食物 = 比萨
- “他一个人的时候喜欢吃布丁。” --- 食物 = 布丁
那么生成这样的训练句子是不是很好。我认为的好处:
- 更多的句子。
- 单个实体将有更多示例而不是一两个。
- 可能精度很高。
问题可能是:
- 充满相似句型的训练数据。
谢谢,请让我知道这种方法的想法。