0

我正在尝试使用 NLU 和 WKS 从文本文档中提取一些实体和关系。我得到了很好的结果,但我想了解为什么 Watson NLU 在类似文档中无法识别我的自定义模型的某些实体,例如:

Text 1 in Portuguese: "Dá à causa o valor de R$ 10.000,00" => DIDN´T WORK

Text 2 in Portuguese: "Dá à causa o valor de R$ 20.000,00" => WORKED!

Text 3 in Portuguese: "Dá à causa o valor de R$ 10.000,01" => WORKED!

Watson 在 Text 2 和 Text 3 上识别出我的实体和关系,但在 Text 1 中却没有。同样的事情发生在:

Text 4 in Portuguese: "Dá à causa o valor esperado de R$ 20.000,00" => DIDN´T WORK

Text 5 in Portuguese: "Dá à causa o valor de R$ 20.000,00" => WORKED!

标记的文档样本:

在此处输入图像描述

数据集:

  • 训练集:250 个文档(85%)
  • 测试集:35 个文档(12%)
  • 盲集:10 份文件 (3%)

  • 我已经使用了其他拆分。

  • 所有文档都有实体和关系,一次按文档,有差异。

我已经用这种情况标记了更多文档,但它并没有改善结果。另一项测试是将任何货币标记到文件中。

我可以做些什么来改善结果?

4

0 回答 0