假设我从论坛中收获了帖子。然后我删除了所有的用户名和签名,所以现在我只知道哪个帖子在哪个线程而不是谁发布了什么,甚至有多少作者(尽管显然作者的数量不能大于文本的数量) .
我想使用马尔可夫模型(查看哪些单词/字母跟在哪些单词后面)来计算有多少人使用了这个论坛,以及哪些帖子是由同一个人写的。为了大大简化,也许一个人倾向于说“他是”,而另一个人倾向于说“他是”——我说的是使用这种基本逻辑的模型。
请注意数据存在一些明显的问题:有些帖子可能很短(一个字答案)。它们可能是重复的(相互引用或使用流行的论坛流行语)。个别文本不是很长。
人们可能会怀疑,一个人很少会连续发帖,或者人们更有可能在他们已经发过帖的线程中发帖。利用这一点是可选的。
让我们假设帖子是纯文本并且没有标记,并且论坛上的每个人都使用英语。
我想获得所有文本的距离矩阵,T_i
即文本和文本由同一作者撰写D_ij
的概率,基于单词/字符模式。我打算使用这个距离矩阵对文本进行聚类,并提出诸如“撰写此文本的人还撰写了哪些其他文本?”之类的问题。T_i
T_j
我将如何实际执行此操作?我需要一个隐藏的MM吗?如果是这样,隐藏状态是什么?我了解如何在文本上训练 MM,然后生成类似的文本(例如生成的爱丽丝梦游仙境),但是在训练频率树之后,如何使用它检查文本以获得它生成的概率那棵树?构建树时我应该看字母还是单词?