1

我想在 scikit-learn 中创建一个贝叶斯模型来预测电影的票房开局。

我从 scikit learn 开始,我发现了许多关于如何加载 CSV 和其他表数据的示例,但我还没有找到关于如何加载具有值集合的属性的示例,例如:

Movie 1: Actors: [Actor 1, Actor 2, Actor 3...], etc.

谁能给我一个提示?

4

1 回答 1

4

DictVectorizer是处理尚未编码为 Numpy 数组的分类数据的首选方式。对于每个样本,您可以构建一堆看起来像

[{'Tom Hanks': True, 'Halle Berry': True},
 {'Tom Hanks': True, 'Kevin Bacon': True}]

等。键必须是字符串;这些值可以是字符串(使用 one-of-k 编码扩展)、布尔值或数字。DictVectorizer然后将这些 dicts 转换为可以馈送到学习算法的矩阵。该矩阵将在整个输入集中每个演员(或其他电影特征)有一列。字典/样本中没有出现的特征的隐含值为零。

于 2013-03-29T15:19:12.637 回答