我正在研究一种系统/算法,它将检测推文流中的主题。
我要做的是删除停用词、表情符号、网址等,我正在考虑将推文表示如下:
terms = (t1, t2, ..., tk)
hashtags = (h1, h2, ..., hn)
date = date of tweet
然后在应用一些聚类算法时使用推文之间的一些相似性度量,结合这三个值。这会比这更复杂一些,因为我会处理回复(例如,当你回复一些推文时,大多数时候你会继续谈论相同的话题等)。
我不知道这是否可行,但到目前为止我看到的问题是我没有识别n-grams,所以Barack Obama大部分时间都在一起出现,在我的系统中它将是两个独立的条款(巴拉克和奥巴马)。
我的问题是:
我怎样才能表示二元组?我的意思是,它通常是如何建模的?
我想过有类似以下的东西:
Tweet = `Some words here`
terms = `[some, words, here, some words, words here]`
...
但我不知道这是否是正确的方法,如果我必须为每个可能的二元组都这样做,等等。
编辑:
在我的数据库中,我将存储所有术语。我是否也应该像存储术语一样存储双元组?