1

我正在使用 Amazon Comprehend Medical 进行实体伤害检测。

假设我有一段文字如下:

约翰接受了手术以修复左膝脱臼和 ACL 完全撕裂。”

Amazon Comprehend Medical (ACM) 能够将脱臼识别为一种医疗状况。但是考虑下一段文字:

“约翰因右膝盖骨脱臼而缺阵。”

在这段文字中,ACM 无法将脱臼识别为医疗状况。同样,如果我输入“左脚踝扭伤”之类的文字,ACM 能够将脚踝扭伤识别为一种医疗状况,但是如果我输入“左脚踝扭伤”,它就无法理解这个词扭伤作为一种医疗状况。

有什么方法可以清理我的文本以更改单词的顺序,以便可以准确地标记这些实体?

4

1 回答 1

2

您正在寻找的内容称为词形还原。例如,您可以使用 NLTK 工具包将每个单词简化为其非屈折基本形式(引理),这将使您“错位”和“扭伤”作为基本形式。这可以提高实体检测的精度。单词的顺序实际上应该不重要。否则,训练你自己的 NER(https://nlpforhackers.io/named-entity-extraction/)。

于 2019-10-23T18:44:07.327 回答