0

如何训练 Watson Knowledge Studio 机器学习注释器来识别不属于正确句子的教育信息。例如,两个要点。我如何形成一个类型系统来识别实体而不将它们全部分开?我考虑过使用关系注释,但根据官方文档,关系类型只有在句子特别提到关系时才应该被注释。例如“Mary works for IBM”就是一个employedBy 关系类型的例子。(Mary 受雇于 IBM)然而,他们自己的视频显示他们用manufacturedBy 关系注释“Ford F-150”,即使这句话没有具体说明这种关系。例如,“福特 F-150 撞上了灯杆”。(F-150 由福特制造)

这是我正在使用的文本类型:

  • 学士,纽约城市大学,1995
  • 硕士,纽约大学,1997
  • 博士,哥伦比亚大学,1999

我可以用学位、学校和毕业年份实体来注释这些,但我最终会得到“1995”、“1997”、“1999”、“BA”、“纽约市立大学”、“哥伦比亚大学”、“硕士”、“纽约大学”、“博士”;一个我无法处理的混乱,因为我无法分辨哪个学位属于哪个学校属于哪个毕业年份。

4

1 回答 1

1

对于包含两个要点的表达式,有可能提高检测句子的准确性,因为它们可以与 WKS 一起使用,使用基于 Dictionary 的 Tokenizer。 https://console.bluemix.net/docs/services/knowledge-studio/create-project.html#wks_tokenizer

我将您的示例文本导入到 WKS 并检查了标记化的结果,然后将表达式分成了 3 个句子。在这种情况下,您可以注释学位、学校和毕业年份之间的关系。

示例文本

于 2017-11-13T03:01:31.340 回答