研究称GPT-4通过图灵测试 54%参与者将其误认为真人

来源: 华声在线
2024-06-24 07:16:58

  每经记者 蔡鼎    每经编辑 兰素英    

  自英国计算机科学家阿兰·图灵(Alan Turing)于1950年提出关于判断机器是否能够思考的著名试验“图灵测试”以来,该测试就被视为判断计算机是否具有模拟人类思维能力的关键。近期,OpenAI开发的GPT-4模型完成了这项闻名全球的测试,再度引发广泛关注。

  加州大学圣地亚哥分校认知科学系博士生 Cameron R. Jones和教授Benjamin K. Bergen在预印本arXiv上发表的最新论文表明,越来越多的人难以在图灵测试中区分GPT-4和人类。

  结果显示,多达54%的参与者将GPT-4误认为真人,是迄今为止首次有AI模型以如此高的结果通过图灵测试。还需要指出的是,上述研究开展之时,OpenAI尚未宣布新一代的旗舰模型GPT-4o,如果参与测试的是GPT-4o,这一比例可能还会更高。

  500名参与者进行测试

  研究人员招募了500名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、初代聊天机器人ELIZA、GPT-3.5和GPT-4。参与者在对话结束后需判断对方是人还是机器。

  双方将通过一个类似即时通讯应用的界面进行交流。界面底部有一个聊天输入框,屏幕中央为对话记录,顶部有一个计时器和触发帮助和报告的按钮。招募到的参与者首先发送消息,双方交替发送,每条消息限制在一定的字符数内。

  针对AI语言模型,研究人员基于表现最好的GPT-4命令集(提示词)进行了修改,指示其表现得像一个年轻人,不要太认真对待游戏,使用口语化表述,且不要出现拼写和语法错误。此外,AI模型也不能提供太多的知识,尤其是语文和数学方面的知识。每轮测试开始时,还会添加一些额外的信息,如姓名、地点和时间戳。

  而且,为了模拟真实的交流延迟,AI的回复会根据消息的长度人为地延迟发送。这种设置旨在模拟正常的人际交流节奏,增加实验的现实感。研究小组解释称,人类之所以不能百分之百地识别同类,是因为提问者认为AI的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。

  为了深入了解影响参与者最后作出决定的定性因素,研究小组对其使用的策略和判断的理由进行了分类。36%的参与者与“对话者”进行闲聊,询问个人细节或他们的日常活动;第二类策略是社交和情感(25%),例如询问“对话者”的意见、经历并分析判断它们的幽默感;第三类是知识和推理(13%),包括数学、逻辑和常识问题。

  结果显示,有54%的参与者将GPT-4误认为 是真人。相比之下,预先设定好回复的ELIZA只有22%的人将其认作真人,GPT-3.5则为50%,而“真人对话者”被正确辨认的比例则为67%

  社交情感能力是关键

  《每日经济新闻》记者注意到,研究人员在论文中对“真人对话者”被正确辨认的比例只有67%感到震惊。

  他们指出,这可能反映出参与者认为AI系统质量在不断进化,这一结果也与近年来其他类似的图灵测试呈现的情况类似。当AI系统能力很差时,真人是很容易被辨别出来的,而随着参与者对AI系统能力的信心增强,他们便更有可能将真人误认为AI。

  作者在论文中指出,他们的结果为图灵测试提供了一些经验性证据。就他们使用的策略和给出的决策理由而言,被招募的参与者在测试中更关注的是研究对象在对话中的风格和社交情感因素,而不是更传统的智力类回答,例如知识和推理能力。他们认为,这可能是因为参与者认为,社交能力是机器最无法模仿的人类特征。

  GPT-4和GPT-3.5在测试中的表现虽然未达到“真人对话者”的水平,但目前AI研究者普遍认为,只要有30%的回答被误认为是人类,那就算通过测试。不过也有观点认为,50%的基线更加合理,因为它更能证明人类在识别AI方面并不具有偶然性。

  在上述研究中,参与者的置信度得分和决策依据都表明他们并非随意猜测:GPT-4是人类的平均置信度为73%。

  还需要指出的是,由于研究人员在进行上述实验时,OpenAI尚未宣布新一代的旗舰模型GPT-4o。这一全新模型可以利用语音、视频和文本信息进行实时推理,如果参与测试,被参与者误认为人类的概率可能就会更高。

  图灵测试是由英国计算机科学家阿兰·图灵(Alan Turing)于1950年在其论文《计算机器与智能》中提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等同或无法区分的智能水平。1966年,美国计算机协会(ACM)还以图灵的名字设立了图灵奖,被誉为“计算机界的诺贝尔奖”,旨在奖励对计算机事业作出重要贡献的个人,每年颁发一次。

责任编辑:何松琳

  “黄河三门峡医院迅速调整诊室结构,开设成人新冠病毒感染门诊和儿童新冠病毒感染门诊共计10个诊室,为三门峡市新冠病毒感染患者迅速诊治提供便利。”黄河三门峡医院门诊部主任白小芹介绍。

  在明明看来,一是与东盟之间的贸易规模有望继续扩大。2022年,RCEP正式落地生效后,其对我国同东盟之间的贸易创造效应明显,并对我国出口形成重要支撑,后续相关的贸易成果或将进一步巩固。二是欧洲产业链因能源成本高面临转移,我国有望在化工、部分机电等领域迎来机会。三是在高质量共建“一带一路”以及中海自贸协定正努力推进的背景下,中国与阿盟的贸易有望出现更多增量,包括新能源等领域相关商品以及其他工业制成品。

  祥鑫科技业绩预告显示,预计2022年归母净利润为2.40亿元至2.52亿元,同比增长274.51%至293.24%。公司新能源汽车动力电池箱体、新能源汽车精密冲压模具及金属件、储能及光伏逆变器精密冲压模具及金属结构件等业务稳步提升。

  以都邦保险为例,其获得2022年至2024年共3年的过渡期政策。该公司表示,2022年三季度末,在偿二代二期工程过渡期政策规则下,其综合偿付能力充足率和核心偿付能力充足率皆为116%,较上一季度下降了22个百分点。公司表示,尽管过渡期政策对其当前偿付能力有较大提升作用,但随着时间推进,风险因子将以年度为单位逐渐上升,直到过渡期结束。“在采取一切措施降低最低资本的基础上,增加资本金来提升实际资本是最直接有效提升公司偿付能力充足率的方法。”

  “由于基数变动的影响并未体现在生活资料价格上,因此,受环比转跌拖累新涨价动能影响,2022年12月份生活资料PPI同比涨幅较前一月放缓。”王青表示,食品类PPI同比涨势较前一月放缓0.7个百分点至3.2%,是当月生活资料PPI同比涨幅收敛的主要拖累,而衣着和耐用消费品PPI同比涨幅则小幅扩大。

  券商板块在沉寂两年之后,是否有望迎来“春暖花开”?近期,不少券商分析师看待板块的观点较为积极,普遍认为券商估值仍处低位,建议关注板块估值修复行情。投资主线上,财富管理依旧是众多券商分析师的“共识”。

张梦兰

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有