如何使用 tensorflow 创建一个单词的热编码,每个单词由词汇大小的稀疏向量表示,并且该特定单词的索引等于 1 ?
就像是
oneHotEncoding(words = ['a','b','c','d']) -> [[1,0,0,0],[0,1,0,0],[0,0, 1,0],[0,0,0,1]] ?
如何使用 tensorflow 创建一个单词的热编码,每个单词由词汇大小的稀疏向量表示,并且该特定单词的索引等于 1 ?
就像是
oneHotEncoding(words = ['a','b','c','d']) -> [[1,0,0,0],[0,1,0,0],[0,0, 1,0],[0,0,0,1]] ?
Scikits 一个热编码器采用一个 int 数组(http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)。基于您的示例,您可以使用字典将单词映射到整数并从那里开始:
import numpy as np
from sklearn.preprocessing import OneHotEncoder
wdict = {'a': 0, 'b': 1, 'c': 2, 'd': 3}
dictarr = np.asarray(wdict.values()).reshape(-1, 1)
enc = OneHotEncoder()
enc.fit(dictarr)
enc.transform([[2]]).toarray()
产生
array([[ 0., 0., 1., 0.]])