python - 如何使用转换和计数从字典创建转换矩阵

Question

我正在尝试创建一个 HMM，我想创建我的转换矩阵，但我不确定如何。我有一本包含转换的字典以及这些转换发生的概率，如下所示（仅更大）：

{(1, 2): 0.0035842293906810036, (2, 3): 0.0035842293906810036, (3, 4): 0.0035842293906810036, (4, 5): 0.0035842293906810036, (5, 6): 0.0035842293906810036, (6, 7): 0.0035842293906810036, (7, 8)}

我定义如下：

# create a list of bigrams
bigrams = []
for i in range(len(integer_list)):
    if i+1 in range(len(integer_list)):
        bigrams.append((integer_list[i], integer_list[i+1]))

# Create a dictionary containing the counts each bigram occurs in the dataset
bigrams_dict = Counter(bigrams)
values = bigrams_dict.values()

# create a dictionary containing the probability of a word occurring. <- initial probs
frequencies = {key:float(value)/sum(counts_dict.values()) for (key,value) in counts_dict.items()}
frequency_list = []
for value in frequencies.values():
    frequency_list.append(value)

现在我想从中制作一个转换矩阵，这将是一个多维数组，但我不知道该怎么做。谁能帮帮我。

转换矩阵看起来像这样的示例（当然只有更多状态）：


   0   1/3  2/3
   0   2/3  1/3
   1    0    0

score 3 · Accepted Answer

一般过程只是预先定义一个具有正确尺寸的零矩阵，然后一次填充一个元素。不要过度考虑这种任务。

例如，如果你知道你正好有 8 个状态，你可以使用你的frequenciesdict 构造这样的矩阵：

import numpy as np

n_states = 8
transitions = np.zeroes((n_states, n_states), dtype=np.float)

for (state1, state2), probability in frequencies.items():
    transitions[state1, state2] = probability

对于非常多的州，这可能需要一段时间，具体取决于您的计算机的速度。

如果您不知道状态的总数，您可以通过计算数据中的最大状态数来估计它：

from itertools import chain

n_states = max(chain.from_iterable(frequencies.keys()))

python - 如何使用转换和计数从字典创建转换矩阵

1 回答 1

Related

Reference