2

我的目标是构建一个文本分类系统,用于理解并可能自动化一种流行的编码工具,该工具在教育中用于对学生论坛消息进行编码。

编码方案有四个代码(T、E、I、R),每个在线论坛消息只能分配一个。这些代码代表了学生学习周期中的一个阶段,并且通过模型理论化,学生的学习经历了反映在他们的信息中的这四个阶段。我们有 1750 条由人类编码员编码的消息,我们希望建立一个模型,可以深入了解每个阶段(T、E、I 和 R)的定义。

我们最初的目标是基于我们认为重要的各种特征构建一个“典型”分类器。但是,我们希望以某种方式包含“线程上下文”,因为答案(及其内容)取决于先前的消息。基本上,我想以某种方式考虑讨论中先前消息的类别以及给定作者的先前消息。像这样的东西:

在此处输入图像描述

现在,我刚刚开始并探索如何建模这个问题的不同想法。我正在考虑以某种方式为此使用隐藏马尔可夫模型,并且想知道我是否走在正确的轨道上?

问题是我们的状态不是未知的,鉴于这是标记的数据集,我们知道状态并希望估计转换和排放概率,然后将它们用于“未知数据”的分类(保留折叠或真正的新消息)

此外,我们对每个状态都有多个观察结果,根据我们将使用的特征,我们可能有大量的文本提取特征

最后,每个状态取决于两个先前的状态:1)线程中先前消息的状态,以及 2)作者的先前状态。我不确定这是否可以以某种方式建模:)

编辑:我已经了解了条件随机场,现在它们似乎更适合这类问题,有什么关于它们的建议吗?:)

4

0 回答 0