我试图了解通过 cTAKES 解析器生成的结果。我无法理解某些观点-
通过 TIKa-app 调用 cTAKES 解析器,我们得到以下结果-
ctakes:AnatomicalSiteMention: liver:77:82:C1278929,C0023884
ctakes:ProcedureMention: CT scan:24:31:C0040405,C0040405,C0040405,C0040405
ctakes:ProcedureMention: CT:24:26:C0009244,C0009244,C0040405,C0040405,C0009244,C0009244,C0040405,C0009244,C0009244,C0009244,C0040405
ctakes:ProcedureMention: scan:27:31:C0034606,C0034606,C0034606,C0034606,C0441633,C0034606,C0034606,C0034606,C0034606,C0034606,C0034606
ctakes:RomanNumeralAnnotation: did:47:50:
ctakes:SignSymptomMention: lesions:62:69:C0221198,C0221198
ctakes:schema: coveredText:start:end:ontologyConceptArr
resourceName: sample
并且解析的文档包含 -
该患者于 4 月接受了 CT 扫描,但未发现肝脏病变
我有以下问题-
为什么 UMLS id 像 ctakes 一样重复:ProcedureMention: scan:27:31:C0009244,C0009244,C0040405,C0040405,C0009244,C0009244,C0040405,C0009244,C0009244,C0009244,C0040405? (cTAKES 配置属性文件有 annotationProps=BEGIN,END,ONTOLOGY_CONCEPT_ARR)
RomanNumeralAnnotation 表示什么?
在C0040405这样的概念唯一标识符中,这7个数字有什么意义吗?这些是如何产生的?
系统信息:
阿帕奇蒂卡 1.10
Apache 采用 3.2.2