nlp - 三部分相关的实体没有被一个句子具体标识

Question

如何训练 Watson Knowledge Studio 机器学习注释器来识别不属于正确句子的教育信息。例如，两个要点。我如何形成一个类型系统来识别实体而不将它们全部分开？我考虑过使用关系注释，但根据官方文档，关系类型只有在句子特别提到关系时才应该被注释。例如“Mary works for IBM”就是一个employedBy 关系类型的例子。（Mary 受雇于 IBM）然而，他们自己的视频显示他们用manufacturedBy 关系注释“Ford F-150”，即使这句话没有具体说明这种关系。例如，“福特 F-150 撞上了灯杆”。（F-150 由福特制造）

这是我正在使用的文本类型：

学士，纽约城市大学，1995
硕士，纽约大学，1997
博士，哥伦比亚大学，1999

我可以用学位、学校和毕业年份实体来注释这些，但我最终会得到“1995”、“1997”、“1999”、“BA”、“纽约市立大学”、“哥伦比亚大学”、“硕士”、“纽约大学”、“博士”；一个我无法处理的混乱，因为我无法分辨哪个学位属于哪个学校属于哪个毕业年份。

score 1 · Accepted Answer

对于包含两个要点的表达式，有可能提高检测句子的准确性，因为它们可以与 WKS 一起使用，使用基于 Dictionary 的 Tokenizer。 https://console.bluemix.net/docs/services/knowledge-studio/create-project.html#wks_tokenizer

我将您的示例文本导入到 WKS 并检查了标记化的结果，然后将表达式分成了 3 个句子。在这种情况下，您可以注释学位、学校和毕业年份之间的关系。

nlp - 三部分相关的实体没有被一个句子具体标识

1 回答 1

Related

Reference