0

我希望使用 Google AutoML 为几种不同类型的文档构建自定义实体提取模型。对于大多数意图和目的,我有 2 种文件类型,文件要么说一个人欠钱,要么文件说一个人已经还清,不再欠钱。

例如 Bob 欠 Larry 400 美元(文档类型 1)

例如,Bob 免除了他的债务(文档类型 2)

我需要的每种文档类型都有稍微不同的实体,但有一些重叠的实体(例如,在这个例子中,借款人和欠款是重叠的实体)。

我的问题是……有 2 个模型更好吗?一个模型在类型 1 文档上训练,另一个模型在类型 2 文档上训练。还是做 1 个在所有文档上训练的模型更好。我知道每个文档是什么类型,并且当我需要进行预测时,我将始终拥有该信息。另请注意,这些文件没有标准格式(浏览来自 1000 名律师的 1000 份法律文件,您会发现它们的组织方式各不相同,即使它们包含相同的信息)。

提前致谢,

杰夫

4

0 回答 0