我正在尝试练习对文本进行分类的逻辑回归技术,并且我想以 apxn 矩阵的形式构建数据集,p 行用于播放,n 列用于唯一单词。我已经有一个文本可以使用,我只需要计算其中的单词。
跟踪哪个单词出现在哪个剧本中很重要,因此对于给定的剧本,我已经能够创建一个 Python 字典来记录独特的单词。我不知道该怎么做是将这些字典组合起来,例如
romeo = {[alas,2],[julliet,35]}
caesar = {[et,1],[tu,3],[cassius,12]}
可以合并生成矩阵
alas julliet et tu cassius
romeo 2 35 0 0 0
caesar 0 0 1 3 12
为清楚起见,我创建了一个示例,其中每个戏剧仅由独特的单词组成 - 自然在现实中这根本不是真的。
有人如何从这些字典中构建这个矩阵?从其他地方开始会更容易吗?