2

我正在使用 WEKA 工具进行聚类数据分析,但是在我的某些属性中,域中有很多值。具体来说,我需要表示一些关于蛋白质的信息,我需要包含的信息是与它们的功能相关的术语。

例如,这些值包含在同一属性“功能”中:

“RNA 结合蛋白”、“核糖体 RNA 结合的 RNA 结合结构成分”、“翻译”、“细胞内核糖体核糖核蛋白复合物”。

这些术语非常多样化。

有人能帮我吗?

4

1 回答 1

2

一种常见的方法是将具有n不同类别的分类变量拆分为n二元虚拟变量。

例如:

gender = {male, female}可以用 2 个虚拟变量重写为:

  1. male = [0, 1]
  2. female = [1, 0]

在您的情况下,似乎一个函数可以包含几个不同的值(例如,一种具有多种功能的蛋白质)。这也很容易塑造成虚拟变量。

于 2013-05-20T22:27:44.407 回答