1

我试图了解通过 cTAKES 解析器生成的结果。我无法理解某些观点-

通过 TIKa-app 调用 cTAKES 解析器,我们得到以下结果-

ctakes:AnatomicalSiteMention: liver:77:82:C1278929,C0023884
ctakes:ProcedureMention: CT scan:24:31:C0040405,C0040405,C0040405,C0040405
ctakes:ProcedureMention: CT:24:26:C0009244,C0009244,C0040405,C0040405,C0009244,C0009244,C0040405,C0009244,C0009244,C0009244,C0040405
ctakes:ProcedureMention: scan:27:31:C0034606,C0034606,C0034606,C0034606,C0441633,C0034606,C0034606,C0034606,C0034606,C0034606,C0034606
ctakes:RomanNumeralAnnotation: did:47:50:
ctakes:SignSymptomMention: lesions:62:69:C0221198,C0221198
ctakes:schema: coveredText:start:end:ontologyConceptArr
resourceName: sample

并且解析的文档包含 -

该患者于 4 月接受了 CT 扫描,但未发现肝脏病变

我有以下问题-

  1. 为什么 UMLS id 像 ctakes 一样重复:ProcedureMention: scan:27:31:C0009244,C0009244,C0040405,C0040405,C0009244,C0009244,C0040405,C0009244,C0009244,C0009244,C0040405? (cTAKES 配置属性文件有 annotationProps=BEGIN,END,ONTOLOGY_CONCEPT_ARR)

  2. RomanNumeralAnnotation 表示什么?

  3. 在C0040405这样的概念唯一标识符中,这7个数字有什么意义吗?这些是如何产生的?

系统信息:

阿帕奇蒂卡 1.10

Apache 采用 3.2.2

4

0 回答 0