1

我是 NLP 研究领域的新手。我想实现一篇论文Can Artificial Neural Networks Learn Language Models 吗?在这篇论文中,第一次迈出了一步,使神经网络可以学习语言模型。我已经理解了这篇论文,一切都是可以理解的,只是论文最后一部分的一些混乱。

我没有找到它的任何代码。Paper is too old (2000) 我什至没有找到当时使用的培训数据(Communicator Telephone Air Travel Information System)

我还通过电子邮件将此事发送给了该论文的两位教授,但其中一位教授的电子邮件 ID 已过期,正在等待另一位教授的回复。

任何人都可以在这种情况下帮助我吗?你的指导方针对研究领域的新人来说很有价值。我会很感激你的。

4

1 回答 1

1

根据 NLP 来说真的是老文档,但对我来说,这个文档看起来像是 NLP 新时代的开始,它使用黑盒技术来学习语言模型,并且似乎它的进一步发展变成了 WORD EMBEDDING - 据我记得这个想法由谷歌的 Mikolov 于 2008 年提出(谷歌将其技术称为 word2vec)。这是使用递归神经网络来学习模型,将单词呈现为 n 维向量(在 google 的 word2vec 中它是 n=128)。这种表示结果非常好,因为相似的词在空间上比其他词更接近。算术也在那里工作,例如:德国首都+巴黎=法国。在这里,您有很好的文章、解释以及根据词嵌入在 tensorflow 中的实现: https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html 所以已经有一些实现——以及用于学习自己模型的现成语料库数据。

已编辑

我更正了链接 - 是错误的。在 C++ 中的谷歌代码上也有 word2vec 实现,但在谷歌代码项目中非常有用的是很多额外的数据。这是链接: https ://code.google.com/archive/p/word2vec/ 在那里你可以找到预训练模型(1.5gb),还可以链接到训练数据:在哪里获得训练数据

词向量的质量随着训练数据量的增加而显着提高。出于研究目的,您可以考虑使用在线可用的数据集:

  • 来自维基百科的第一个十亿字符(使用马特马奥尼页面底部的预处理 perl 脚本)
  • 最新的 Wikipedia 转储 使用与上述相同的脚本来获取干净的文本。应该超过30亿字。
  • WMT11 站点:多种语言的文本数据(在训练模型之前应删除重复的句子)
  • 来自“十亿字语言建模基准”的数据集几乎 1B 字,已经预处理的文本。
  • UMBC 网络数据库语料库 大约 30 亿字,更多信息请点击此处。需要进一步处理(主要是标记化)。- 更多语言的文本数据可以在 statmt.org 和 Polyglot 项目中获得。
于 2016-09-30T06:15:19.497 回答