1

我有 3 组句子(字数不同),但我不知道如何从文本中提取特征以使输入维度保持不变。

例如,我尝试过词袋,但由于字数变化会导致输入维度变化,我最终会出错。

如果您能向我展示一种为神经网络准备字符串数据的方法,我将不胜感激。

谢谢!

(Windows 7 中的 Python 2.7)

4

1 回答 1

2

如何格式化输入

这是来自wikipedia.org的摘录


这是两个简单的文本文档:

约翰喜欢看电影。玛丽也喜欢。


约翰还喜欢看足球比赛。


基于这两个文本文档,一个字典被构造为:

{
    "John": 1,
    "likes": 2,
    "to": 3,
    "watch": 4,
    "movies": 5,
    "also": 6,
    "football": 7,
    "games": 8,
    "Mary": 9,
    "too": 10
}

其中有 10 个不同的单词。并且使用字典的索引,每个文档都由一个 10 项向量表示:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]


无论文档的长度如何,您的输入都将保持相同的大小。 我希望这能帮到您。

于 2013-08-06T08:42:29.547 回答