4

我有很多千兆字节的 Facebook / Twitter / RSS 数据。

我正在使用它以一种非常笼统的方式在一般人群中跟踪甲状旁腺功能亢进的演变,从某人通过他们一直服用的药物、治疗和最终结果被诊断出患有某种疾病的类型开始。

我是 NLTK 的新手,我确实有很好的 Python / SQL 经验。

我所有的数据都parathyroid在里面;但是,正如您在下面看到的(示例 twitter 数据),它在语言上是可怕的:

omg i think my parathyroid is screwed up!!!
Have been stuck at parathyroid hormone. STOP GETTING ON TWITTER JASMINE.
Cryopreservation of Parathyroid Tissue after Parathyroid Surgery for Renal Hyperparathyroidism
The Parathyroid as a Target for Radiation Damage
it's for the parathyroid hormone la

所有这些数据都存储在数据库中。我们还有海报、帖子 ID、帖子文本等字段。

我想知道是否有人可以为我指出以下正确的方向:

  1. 是否已经有有效的算法来帮助我做我需要的事情?
  2. 从语言上讲,我们如何在数据中找到相关性?我们正在尝试追踪模式。
  3. 我应该将数据放入某种“网格”形式以帮助分析吗?
4

0 回答 0