我试图通过使用一些真实语言作为模型来理解乔姆斯基层次结构的四个层次。他认为所有自然语言都可以通过上下文无关文法生成,但席伯反驳了这一理论,证明瑞士德语等语言只能通过上下文相关文法生成。由于乔姆斯基来自美国,我猜美国语言是上下文无关语法的一个例子。我的问题是:
- 是否有可以通过常规语法(类型 3)生成的语言?
- 既然递归可枚举语法可以生成所有语言,为什么不使用它呢?它们是否过于复杂且线性度较低?
- 瑞士德语有什么特点,无法通过上下文无关语法生成?
我试图通过使用一些真实语言作为模型来理解乔姆斯基层次结构的四个层次。他认为所有自然语言都可以通过上下文无关文法生成,但席伯反驳了这一理论,证明瑞士德语等语言只能通过上下文相关文法生成。由于乔姆斯基来自美国,我猜美国语言是上下文无关语法的一个例子。我的问题是:
我不认为这对于 StackOverflow 来说是一个合适的问题,它是一个编程问题的网站。但我会尽我所能解决它。
我不相信乔姆斯基曾经认为自然语言可以用类型 2 语法来描述。在类型 2 语法中表示名词动词一致(单数/复数)并非不可能,因为案例的数量是有限的,但语法很尴尬。但自然语言还有更复杂的特征,一般都涉及到如何重新排列词序的特定规则,而这些规则无法用简单的语法来捕捉。乔姆斯基希望第二级分析——“转换语法”——能够有用地捕捉这些重排规则,而不会使语法在计算上难以处理。这将需要找到一些适合类型 1 和类型 2 的系统化,因为类型 1 语法在计算上不易于处理。
事实上,由于我们确实正确地解析了我们自己的语言,因此有一些计算算法是理所当然的。但是这种推理实际上可能并不正确,因为我们可以解析的句子的复杂性是有限的。任何有限语言都是正则的(类型 3);只有具有无限数量的潜在句子的语言才需要更复杂的语法。因此,大量有限模式的集合足以理解自然语言。这些模式可能比正则表达式复杂得多,但只要每个模式仅适用于长度有限的句子,该模式就可以在数学上表示为正则表达式。(最明显的一个是列出所有可能的句子作为替代,如果可能的句子数量是有限的,则这是一个正则表达式。但在许多情况下,这可能会被简化为更有用的东西。)
据我了解,现代使用所谓的“深度学习”处理自然语言的尝试基本上是基于通过神经网络进行模式识别,尽管我没有深入研究该领域并且我确信我有很多复杂性我跳过了那个简单的描述。
诺姆乔姆斯基是美国人,但“美国人”不是一种语言(y si fuera, podría ser castellano, hablado por la mayoríade los residentes de las Americas)。据我所知,他的第一语言是英语,但他绝不是单语,虽然我不知道他会说多少瑞士德语。当然,多年来一直有人批评他的理论存在印欧偏见。当然,尽管我在瑞士生活了几年,但我并没有声称自己有瑞士德语的能力,但我确实阅读了 Shieber 的论文和一些后续文章,并与母语为瑞士德语的同事讨论了这些内容。(意见分歧。)
基本问题与列表中的形态一致性有关。正如我前面提到的,许多语言(据我所知,所有印欧语言)都坚持动词的形式与主语的形式一致,因此单数主语需要单数动词,复数主语需要复数动词。[注1]
在许多语言中,形容词和名词之间也需要一致,这不仅是数量上的一致,而且在语法上也一致(如果适用)。此外,许多语言要求特定动词与动词宾语的冠词或形容词一致。[笔记2]
简单的协议可以通过上下文无关(Type 2)语法来处理,但是有很大的限制。简单地说,上下文无关文法只能处理括号结构。即使存在不止一种类型的括号,这也可以工作,因此上下文无关语法可以坚持[
a 与 a 匹配]
而不是 a )
。但是语法必须具有这种“由内而外”的形式:匹配符号的顺序必须与被匹配符号的顺序相反。
这样做的一个结果是,回文有一种上下文无关的语法——在两个方向上读起来都一样的句子,这实际上意味着它们由一个短语后面跟着它的反义词组成。但是对于重复没有上下文无关的语法:一种由重复短语组成的语言。在回文中,匹配词与匹配词的顺序相反;在副本中,它们的顺序相同。因此差异。
自然语言中的一致性大多遵循这种模式,一些例外情况可以通过设定对有限数量的短语重新排序的简单规则来处理——乔姆斯基的转换语法。但是瑞士德语至少有一个案例,其中协议不是括号,而是以相同的顺序。[注3] 这涉及到德语的特点,即很多句子的顺序是主宾宾动词,当动词有间接宾语时,可以扩展为主宾宾宾宾...动词动词动词...。Shieber 展示了一些例子,其中对象-动词一致是有序的,即使有插入的短语。
在一般情况下,这种“跨串行协议”不能用上下文无关文法来表达。但是有一个巨大的潜在假设:一致序列的长度实际上是无限的。另一方面,如果实际常用的模式数量有限,那么上面提到的“深度学习”模型肯定能够处理它。
(我想说我在这里并不支持深度学习。事实上,“人工智能”被“训练”的方式涉及使用可能没有充分理解文化偏见的培训师。这很容易导致同样的问题在我的第一个脚节点中提到了不幸的后果。)
正如沃尔夫所指出的,在许多美国本土语言中并非如此。在这些语言中,使用单数动词和复数名词意味着该动作是集体采取的,而使用复数动词则意味着该动作是单独采取的。粗略地翻译成英语,“The dogs run”是关于一群狗在不同方向上独立奔跑,而“The dogs runs”是关于一群狗一起跑。一些将自己的语言偏见强加于母语的欧洲“老师”未能正确理解这种区别,并得出结论认为美洲原住民必须过于原始,甚至无法“正确”说自己的语言;去“纠正”这个“不足”,
这些规则在英语中不存在,是一些说英语的人因学习德语而受到折磨的原因之一。我从个人经历说。
有序协议,与括号协议相反,被称为跨序列依赖。