我有 3 组句子(字数不同),但我不知道如何从文本中提取特征以使输入维度保持不变。
例如,我尝试过词袋,但由于字数变化会导致输入维度变化,我最终会出错。
如果您能向我展示一种为神经网络准备字符串数据的方法,我将不胜感激。
谢谢!
(Windows 7 中的 Python 2.7)
我有 3 组句子(字数不同),但我不知道如何从文本中提取特征以使输入维度保持不变。
例如,我尝试过词袋,但由于字数变化会导致输入维度变化,我最终会出错。
如果您能向我展示一种为神经网络准备字符串数据的方法,我将不胜感激。
谢谢!
(Windows 7 中的 Python 2.7)
约翰喜欢看电影。玛丽也喜欢。
约翰还喜欢看足球比赛。
{
"John": 1,
"likes": 2,
"to": 3,
"watch": 4,
"movies": 5,
"also": 6,
"football": 7,
"games": 8,
"Mary": 9,
"too": 10
}
其中有 10 个不同的单词。并且使用字典的索引,每个文档都由一个 10 项向量表示:
[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
无论文档的长度如何,您的输入都将保持相同的大小。 我希望这能帮到您。