我知道 ANN 输入必须被规范化、标准化等。撇开各种 ANN 的特性和模型不谈,我如何在 {0,1} 范围内或在 {-1} 范围内预处理 UTF-8 编码文本, 1} 在作为神经网络的输入之前?我一直在谷歌上搜索这个但找不到任何信息(我可能使用了错误的术语)。
- 那有意义吗?
- 这不是为神经网络预处理文本的方式吗?
- 有没有其他选择?
2013 年 11 月更新
我早就接受了皮特的正确答案。然而,我有严重的怀疑,主要是由于我最近对符号知识和 ANN 的研究。
Dario Floreano 和 Claudio Mattiussi在他们的书中解释说,通过使用分布式编码,这种处理确实是可能的。
实际上,如果您尝试使用 google 学者搜索,就会发现大量的神经科学文章和论文,这些文章和论文介绍了如何假设大脑使用分布式编码来编码符号知识。
Teuvo Kohonen在他的论文“自组织地图”中解释说:
有人可能认为,将神经适应定律应用于符号集(被视为一组矢量变量)可能会创建一个显示符号之间“逻辑距离”的地形图。然而,与连续数据相比,存在符号的不同性质的问题。对于后者,相似性总是以自然的方式出现,作为它们连续编码之间的度量差异。对于没有定义度量的离散符号项目(例如单词)不再适用。符号的本质与它的编码是分离的。
然而,Kohonen 确实设法处理了 SOM 中的符号信息!
此外,Alfred Ultsch 教授在他的论文“神经网络与符号知识处理的集成”中准确地处理了如何在人工神经网络中处理符号知识(例如文本)。Ultsch 提供以下处理符号知识的方法:神经近似推理、神经统一、内省和综合知识获取。尽管在谷歌学者或其他任何地方都找不到关于这方面的信息。
皮特在他的回答中关于语义是正确的。ANN 中的语义通常是不连贯的。然而,在参考之后,提供了研究人员如何使用 RBM 的见解,这些 RBM 被训练以识别不同单词输入的语义相似性,因此拥有语义应该不是不可能的,但如果需要语义,则需要分层方法或辅助 ANN .
使用子符号神经网络进行自然语言处理,Risto Miikkulainen,1997 年 在单词观察上训练受限玻尔兹曼机,GEDahl,Ryan.P.Adams,H.Rarochelle,2012 年
2021 年 1 月更新
NLP 和深度学习领域的研究在过去几年中出现了复苏,自从我提出这个问题以来。现在有机器学习模型可以解决我试图以多种不同方式实现的目标。
对于遇到此问题并想知道如何在深度学习或神经网络中预处理文本的任何人,这里有一些有用的主题,它们都不是学术性的,但很容易理解,它们应该可以帮助您开始解决类似的任务:
在我问这个问题的时候,RNN、CNN 和 VSM 即将开始使用,现在大多数深度学习框架都支持广泛的 NLP 支持。希望以上有所帮助。