我正在尝试开发一个文本分类器,它将一段文本分类为Private或Public。以医疗或健康信息为例。我能想到的典型分类器将关键字视为主要区分器,对吗?像下面这样的场景呢?如果两段文本都包含相似的关键字但具有不同的含义怎么办?
以下一段文字揭示了某人的私人(健康)状况(患者患有癌症):
我去过两个clinics
和我的pcp
。我ultrasound
只有一个被告知它是一个解决方案cyst
或一个hematoma
,但它变得越来越大并且开始使我的腿ache
。PCP
说它不可能是cyst
因为它开始太大了,我发誓我从来没有我injured
的腿,甚至没有bump
。我现在又害怕又害怕cancer
。大约 9 个月前,我只有在蹲下时才注意到一种轻微的不适感。3个月前,我蹲下来收拾衣物,这有点像hurt
。这pain
促使我检查我的leg
,那是当我注意到lump
我的小腿底部有一个muscle
并且弯曲只会让它更加明显。最终经过四次clinic
访问,一个ultrasound
和一个pcp
结果似乎是积极的,而且质量越来越大。
[私人](正确分类)
以下文字是医生的评论,绝对没有透露健康状况。它介绍了典型分类器模型的弱点:
不要害怕,也不要假设有什么不好的cancer
。我经历过几个案例,对我clinic
来说似乎很熟悉。正如您所提到的,它可能是 acyst
或 ahematoma
并且它越来越大,它必须需要一些额外的东西diagnosis
,例如biopsy
. 在那个区域有一个ache
或 的大小lump
并不能说明任何事情bad
。您应该clinics
多访问几次专业并进行一些特定的测试,例如,biopsy
和在此之前变得更大。[私人](这是错误的分类。应该是[公共])CT scan
pcp
ultrasound
lump
出于显而易见的原因,我目前所有的分类器都将第二段归类为私有。相似的关键词、有效的词序列、主题的存在似乎让分类器非常混乱。甚至,这两个内容都包含诸如I
,You
(名词,代词)等主题。我从 Word2Vec 到 Doc2Vec,从推断含义到语义嵌入,但想不出最适合这个问题的解决方法。
任何想法,我应该以哪种方式处理分类问题?提前致谢。
迄今为止的进展:
我从公共来源收集的数据,患者/受害者通常会发布自己的情况,医生/好心人会回复这些数据。我假设在爬行时 - 帖子属于我的私人课程,评论属于公共课程。总的来说,我从 5K+5K 的帖子/评论开始,并在没有任何主要预处理的情况下使用朴素贝叶斯分类器获得了大约 60%。我很快就会尝试神经网络。但在输入任何分类器之前,我只想知道如何更好地进行预处理,以便为任一类赋予合理的权重,以便更好地区分。