我正在使用 Matlab 中的 nntool 开发一个神经训练网络,我有 11250 个不同长度的文本文件作为输入(从 10 到 500 个单词,或者如果我消除了多余的单词,可以说是 10 到 200 个单词),我没有找到将此输入文本表示为数字数据以运行我的训练算法的好方法。我考虑过创建一个单词词汇表,但我发现这个词汇表包含 16000 个不同的单词,非常庞大。一些文本文件之间有一些共同的词。
问问题
47 次
1 回答
0
为了快速解决,您应该寻找“词袋”或“tfidf”。如果你不知道这是什么,你应该从这里开始:https://en.wikipedia.org/wiki/Vector_space_model或https://en.wikipedia.org/wiki/Document_classification。
你读过任何关于 NLP 的书吗?也许这个可能很有价值:http ://www.nltk.org/book/一开始。
于 2016-05-04T07:34:58.397 回答