我在学术上提出这个问题,我想大声提出一个非常重要的问题,并让社区尝试回答它。我们能否构建一个系统来生成一个场景,以便在实时匿名群组视频聊天室中播放,该聊天室可以读取输入的文本并用聊天机器人做出响应?
实时 Internet 视频通常很模糊,并且分辨率较低。在远处聚会的场景中,人们无法辨认出许多细节。可以使用现代软件工具渲染场景,这些工具在不移动时看起来非常真实。让它们真实地移动是一个很大的模拟软件。
由 24 个系统组成的集群每秒可以处理 1 帧,可以每秒 24 帧的速度渲染人脸。然后,视频会从决定生成哪种面部表情的时间点延迟 1 秒。这些面部表情及其产生是一个关键问题。皮肤真实感要求是图形社区解决的问题。
一些研究人员对面部表情进行了分类。它们也可以被渲染,这已在现代计算机图形学文献中得到证明。如果我们知道哪些适合特定情况,我们就可以做到。
聊天机器人已经使用了几十年。现在存在相当“智能”的聊天程序,它会阅读所询问的内容并以明智的方式回复。他们一直用文本来做这件事,但是文本阅读器软件可以用人类的声音说话,而且语音识别软件每年都在变得更好。
我的建议是,连接软件开发的所有这些不同部分并创建一些真正令人惊叹的图灵测试搅拌器应该是相当初级的。
这个程序可以像其他参与者一样进入一个虚拟空间并显示一个真实的环境,就像在网络摄像头上一样。它可以观察他们的面部表情,可以听他们的讲话,还可以阅读他们的文字。然后它可以创建一个响应,然后输入或回复给该组。选择回应什么是一个困难的问题,甚至大多数人都没有掌握。我们可以通过大量工作来接近它。
图灵测试是关于证明沟通者是人,但“证明”只是在足以愚弄人类法官的意义上。如果人类法官只是每个人,他们就不太可能采用严格的正式程序。猜测或中招就足够了。
你觉得我们能做到吗?
这个计划有缺陷吗?以这种方式欺骗普通观众是否有道德含义?我们可以通过生成个人智能助理来赚取数百万美元吗?