sequences - 如何创建序列序列的一个热编码

Question

我想对看起来像 [[5,7,11,9,13,1,...],[3,7,5,9,16,...] 的数据集进行一次热编码， ..]; 其中每个序列的长度为 24，每个序列中的最大可能整数为 33，序列总数为 200。每个序列是一个句子的整数表示。我如何才能对此进行有效的热编码？我试过了

for sentence in sentences:    
n=maxlen    
k=max_vocabullary    
m=np.zeros((n,k))    
m[np.arange(n),sentence]=1     
print (m)

score 1 · Accepted Answer

试试 Scikit-learn 的 OneHotEncoder。

from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder()
encoded_seqs = enc.fit_transform([[5,7,11,9,13,1,...],[3,7,5,9,16,....],..])

1 回答 1