0

我在学术上提出这个问题,我想大声提出一个非常重要的问题,并让社区尝试回答它。我们能否构建一个系统来生成一个场景,以便在实时匿名群组视频聊天室中播放,该聊天室可以读取输入的文本并用聊天机器人做出响应?

实时 Internet 视频通常很模糊,并且分辨率较低。在远处聚会的场景中,人们无法辨认出许多细节。可以使用现代软件工具渲染场景,这些工具在不移动时看起来非常真实。让它们真实地移动是一个很大的模拟软件。

由 24 个系统组成的集群每秒可以处理 1 帧,可以每秒 24 帧的速度渲染人脸。然后,视频会从决定生成哪种面部表情的时间点延迟 1 秒。这些面部表情及其产生是一个关键问题。皮肤真实感要求是图形社区解决的问题。

一些研究人员对面部表情进行了分类。它们也可以被渲染,这已在现代计算机图形学文献中得到证明。如果我们知道哪些适合特定情况,我们就可以做到。

聊天机器人已经使用了几十年。现在存在相当“智能”的聊天程序,它会阅读所询问的内容并以明智的方式回复。他们一直用文本来做这件事,但是文本阅读器软件可以用人类的声音说话,而且语音识别软件每年都在变得更好。

我的建议是,连接软件开发的所有这些不同部分并创建一些真正令人惊叹的图灵测试搅拌器应该是相当初级的。

这个程序可以像其他参与者一样进入一个虚拟空间并显示一个真实的环境,就像在网络摄像头上一样。它可以观察他们的面部表情,可以听他们的讲话,还可以阅读他们的文字。然后它可以创建一个响应,然后输入或回复给该组。选择回应什么是一个困难的问题,甚至大多数人都没有掌握。我们可以通过大量工作来接近它。

图灵测试是关于证明沟通者是人,但“证明”只是在足以愚弄人类法官的意义上。如果人类法官只是每个人,他们就不太可能采用严格的正式程序。猜测或中招就足够了。

你觉得我们能做到吗?

这个计划有缺陷吗?以这种方式欺骗普通观众是否有道德含义?我们可以通过生成个人智能助理来赚取数百万美元吗?

4

4 回答 4

2

我们无法通过传统的基于文本的图灵测试。在顶部添加视频是无关紧要的。

于 2009-10-30T08:57:53.060 回答
2

我不同意你在这里提出的问题,但我觉得有必要指出你严重误解了图灵测试的意义。它与看起来像人或听起来像人无关。

事实上,大多数提议的测试都涉及一个延时电传终端,因此除了正在测试的实际通信之外,信息传输尽可能少。

我不想打破你的泡沫,但当前一代的聊天机器人,甚至实验室中最先进的 AI 都远远无法击败图灵测试。很快就很明显那里没有一个真实的人。

于 2009-10-30T08:58:30.220 回答
2

这方面的研究已经在进行。数字化身的使用取得了一些成功。一些关键点:

  • 现代PC可以实时渲染令人信服的人脸,没问题。只需放入一张中型 gfx 卡和一个好的模型,您就完成了。(例如,参见黎明)。

  • 当前的语音生成软件可以产生流利的文本,并且能够正确发音。因为说话者没有情绪,所以还是有点单调。(见这篇文章)。

  • 有研究让机器有“感觉”。我说“感觉”是因为它基本上只是一个带有几个变量(“愤怒”、“恐惧”、“饥饿”、“无聊”、“悲伤”……)和一组复杂的规则的小程序。这些变量。(有关详细信息,请参阅Wikipedia 文章)。

现在的主要问题是我们不知道情绪是什么。它们只是漂浮在大脑某些部分的大量分子吗?如果是这样,哪些分子在大脑的哪个部分?今天的神经科学家试图通过查看 MRT 图像来预测心理状态。为了理解这意味着什么,这里有一个类比:他们试图通过用肉眼观察地球上来自月球的光分布来猜测人类在做什么。

所以我们不明白什么是情绪。下一个障碍是情绪在没有上下文的情况下毫无意义。sadness只需将变量的值设置为 1.0 ,就很容易编写出让人感到“悲伤”的程序。但如果没有理由,那会感觉很奇怪。所以程序必须能够跟随对话,建立它的心理形象(人们在谈论什么以及他们现在的感受),然后按照各自小组的当前规则调整自己的心理状态。

你知道当你第一次加入一个新团体时的感觉,并试图掌握正在发生的事情以及你应该如何表现。这对人类来说是一项艰巨的任务,对程序来说更是如此。

有一篇文章“Können wir eine Seele simulieren?” (只有德语,但谷歌翻译的输出非常好。)

于 2009-10-30T09:31:13.907 回答
1

最大的问题不是渲染外观(视觉或声音),而是渲染智力和情感。

您建议的是实时怪物史莱克的前端。但是后端呢?

于 2009-10-30T08:58:07.703 回答