如何识破大语言模型“幻觉”回答?国际最新研发出“以毒攻毒”检测方法

来源: 广州日报
2024-06-21 15:08:05

  中新网北京6月20日电 (记者 孙自法)基于人工智能(AI)的大语言模型(LLM)回答问题并非总是准确可靠,有时甚至极其智能地以“幻觉”方式提供胡编乱造的答案让人真假难辨,对此如何予以有效检测广受关注。

  国际著名学术期刊《自然》最新发 表一篇人工智能研究论文称,研究人员开发出一种能检测大语言模型“幻觉”的方法,这种方法通过“以毒攻毒”方式,能测量生成回答的含义的不确定性,或能用于提升大语言模型输出的可靠性。

  该论文介绍,大语言模型(如ChatGPT和Gemini)是能阅读和生成自然人类语言的人工智能系统。不过,这类系统很容易产生“幻觉”,生成不准确或没有意义的内容。检测大语言模型出现“幻觉”的程度很难,因为这些回答的呈现方式可能会让它们看起来很可信。

  幼崽香香打动了万千日本民众的心,而对于熊猫饲育员而言,怀着另一种心情。福田丰介绍,大熊猫的繁殖工作需要注意的地方很多,比如要关注幼崽出生后,妈妈会不会立刻抱起来喂奶,因为初乳中有免疫物质,至关重要。大熊猫刚出生时只有150克,仅凭日方动物园的经验很难养大,必须要时时咨询中国专家的建议。

  讲走出大流行的标志,其实是从不同的角度可以有不同的指标,从疫情防控,特别是公共卫生的角度来看,它的指标,我想主要有以下方面,一个是这种疾病的感染率到底处在什么状态,两个关键的感染率,一个是累计的感染率,也就是在一个地区、一个国家、一个人群当中,在一定的时间内总的感染率,也就是累计的感染率。还有一个感染率的指标是新发的感染率,比如说每日有多少人新发,在特定的人群中新发了多少人群的感染。另外一个指标是人群对它的免疫水平或者是免疫率,它的指标就是判断他体内抗体的水平,也就是抗免疫屏障、免疫保护率达到什么状态。第三个指标是看病原体,就是新冠病毒有没有发生质的、有公共卫生意义的变异,如果是在一个亚型下只是发生量变,没有发生质变,这个指标也是非常重要的。第四个是从医疗卫生供方的角度看,每日的接诊门诊量、住院情况、重症情况、死亡情况,以及整个医疗卫生系统应对的能力,这个方面是重要的。最后是看整个防控能力,从机制到控制这个疾病的手段和能力是否基本具备。我想这几个方面是判定走出大流行的重要指标。

  大熊猫是季节性发情动物,在自然分布区每年仅在春季发情一次,圈养大熊猫也同样如此。成都大熊猫繁育研究基地的资料显示,圈养条件下雌性大熊猫5岁左右,雄性大熊猫6岁左右进入性成熟,雌性大熊猫每年发情一次,每次发情高峰期只有短暂的2~3天,一般每年3-5月发情。

  袁永华估计,从当地劳动市场的情况来看,25岁以下的年轻人比起去年少了20%。00后工人和70后、80后不同,大多是独生子女,有父母帮衬,只要手里有钱吃饭,受约束更小,“想辞职就辞”。

  去年9月,王莉的幼儿园比往年少招了30人,空出来的一间教室,她决定用更小的孩子填满,于是新开了一个托班:主要招收2岁半~3岁的孩子。今年,如果招生人数进一步下降,王莉打算开更多托班,并考虑向更小年龄段延伸。托班收费不受政府指导价限制,每人每月是2700元,这笔“额外收入”就成了幼儿园当下的救命稻草。

  自那以后,自称“宅男”的悠史,几乎每隔一个月都从关西乘坐新干线专程去上野动物园看大熊猫。为了记录下大熊猫成长的过程,他购入单反学习摄影,“香香睡觉的样子、啃竹子的样子,眼睛、脚底、指甲等细节都拍下来了”。

冯夙元

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有