聊天机器人胡言乱语?牛津研究人员利用语义熵来识破 AI“幻觉”

来源: 台海网
2024-06-24 10:09:50

IT之家 6 月 24 日消息,近年来,人工智能蓬勃发展,聊天机器人等应用逐渐普及,人们可以通过简单的指令从这些聊天机器人(例如 ChatGPT)获取信息。然而,这些聊天机器人仍然容易出现“幻觉”问题,即提供错误的答案,有时甚至是危险的信息。

造成“幻觉”的原因之一是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。不过,牛津大学的研究人员另辟蹊径,在最新出版的《自然》杂志上详细介绍了一种他们新开发的方法,用于检测大型语言模型 (LLMs) 的“捏造” (即任意生成的不正确信息) 问题。

LLM 通过在训练数据中寻找特定模式来生成答案。但这种方法并非总是奏效,就像人类能从云朵形状中看到动物一样,AI 机器人也可能找到并不存在的模式。然而,人类知道云朵只是形状而已,天上并没有漂浮的巨型大象。LLM 则可能将此视为真实的,从而“捏造”出并不存在的新科技和其他虚假信息。

牛津大学的研究人员利用语义熵的概念,通过概率来判断 LLM 是否出现“幻觉”。语义熵指的是同一个词语拥有多种含义的情况,例如,“desert”可以指沙漠,也可以表示抛弃某人。当 LLM 使用这类词语时,可能会对表达的含义感到困惑。通过检测语义熵,研究人员旨在判断 LLM 的输出内容是否存在“幻觉”的可能。

利用语义熵的优势在于无需额外的监督或强化学习,即可快速检测 LLM 的“幻觉”问题。由于该方法不依赖于特定任务的数据,因此即使 LLM 面临从未遇 到过的新任务,也能加以应用。这将大大提升用户对于 LLM 的信任感,即使是 AI 首次遇到某个问题

研究团队表示:“我们的方法可以帮助用户理解何时需要对 LLM 的输出保持谨慎,并为原本因不可靠性而受限的 LLM 应用开辟了新天地。”

如果语义熵被证明是一种有效的“幻觉”检测手段,那么我们可以利用这类工具对人工智能的输出进行双重校验,使其成为更加可靠的伙伴。不过IT之家需要提醒的是,就像人类并非无懈可击一样,即使配备了最先进的错误检测工具,LLM 也仍然可能出错。因此,始终对 ChatGPT 等聊天机器人提供的答案进行仔细核查仍然是明智之举。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

  去年重庆GDP超越广州,排名全国第四。不过,今年一季度,广州GDP反超重庆31.03亿元,第二季度结束,重庆后来居上,再次反超广州。

  异化的旅游行业真的适合跟风投入吗?旅游的终极目标是游客对本地生活的体验,人与人面对面之间的沟通依然是最重要的方式。贾云峰认为,抖音导游的非现场化,预计并不会对传统导游行业造成大的冲击,多数游客仍愿意选择线下面对面的旅行方式。与此同时,抖音导游作为一种数字化展现形式,也将为一部分热爱数字技术的旅游者提供个性化方式的选择。

  8月4日,黄平趁着暴雨停息回了一趟涿州的库房查看情况。库房的水位已经有了下降的趋势,从之前的4米降到大概2米,但仍然难以展开大规模的图书救援行动。被洪水泡过的书籍无法再用,处在高处的书籍也面临着受潮变形的风险。

  “我发给您的都是捡漏房源。”崔明明向记者前后展示了三套房源,其中一套位于月坛南街19号院,43㎡,南北通透的一室一厅,售价678万元。“同户型的房子之前卖709万元,今年9月还卖了一套不带电梯的,692万元。现在这个价格,如果只想落户,非常适合。”不出所料,这套单价15.58万元的“捡漏房”在挂牌两天后售出。

  万达审计到地方去,地方员工纷纷表示怕了怕了。通常的情景是,审计到各地,都会举行一个全员的审前会议,包括打扫的阿姨、司机都得参加。随后,审计人员会拿着王健林的审计指令,然后把这张纸往总经理的桌子上一放,上面写着“审计指令”四个大字,哪个公司委派什么人到你公司进行例行审计,请接待配合,落款:王健林。

  400万册图书、价值超过3亿元,一夜之间化为乌有。谈到曾被洪水围困的员工和变成废纸的图书,中图网创始人、CEO黄平忍不住掩面而泣。

张伍

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有