我想在 scikit-learn 中创建一个贝叶斯模型来预测电影的票房开局。
我从 scikit learn 开始,我发现了许多关于如何加载 CSV 和其他表数据的示例,但我还没有找到关于如何加载具有值集合的属性的示例,例如:
Movie 1: Actors: [Actor 1, Actor 2, Actor 3...], etc.
谁能给我一个提示?
我想在 scikit-learn 中创建一个贝叶斯模型来预测电影的票房开局。
我从 scikit learn 开始,我发现了许多关于如何加载 CSV 和其他表数据的示例,但我还没有找到关于如何加载具有值集合的属性的示例,例如:
Movie 1: Actors: [Actor 1, Actor 2, Actor 3...], etc.
谁能给我一个提示?
DictVectorizer
是处理尚未编码为 Numpy 数组的分类数据的首选方式。对于每个样本,您可以构建一堆看起来像
[{'Tom Hanks': True, 'Halle Berry': True},
{'Tom Hanks': True, 'Kevin Bacon': True}]
等。键必须是字符串;这些值可以是字符串(使用 one-of-k 编码扩展)、布尔值或数字。DictVectorizer
然后将这些 dicts 转换为可以馈送到学习算法的矩阵。该矩阵将在整个输入集中每个演员(或其他电影特征)有一列。字典/样本中没有出现的特征的隐含值为零。