复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

来源: 秀目传媒
2024-06-14 19:31:09

  新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。

  据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注 于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。

  评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

  今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。

  同仁牛黄清心丸,为北京同仁堂(600085.SH)生产。据记者采访了解,三十年余前,同仁牛黄清心丸在局方的基础上有所改良和创新,去除了两味药。为保护改良的中药品种起见,北京同仁堂将品名注册为“同仁牛黄清心丸”,正是这一特殊的名称,使得这一曾被列为国家中药保护品种的产品,阴差阳错未被纳入国家医保目录。

  他们所从事的运动是集艺术与力量于一身的独特项目,更是考验彼此之间信任和彼此之间信心的项目。他们一次次穿过伤病与失败,彼此成为对方的桥,最终一起走向辉煌。他们一次次创造奇迹,又一次次战胜自我。

  开工北师大昌平直属学校、天通苑清华附小等项目

  张培源建议,设计者要以新的视角和人们乐于接受的视觉形式展现和“重塑”十二生肖,不是简单地复制粘贴,而是要对文化元素进行个性化解读、诠释,使其适应当代消费者的需求和偏好,贴近年轻人的消费观和价值观,同时结合传统与新潮元素,充分利用AR、AI、VR等新技术,通过短视频平台、公众号、社交软件等多种渠道推广,打造独家IP。(完)

  包括张永泽在内,中央纪委国家监委网站2022年点名通报执纪审查中管干部32人,数量为党的十九大以来之最(2018年23人,2019年20人,2020年18人,2021年25人)。

  “持续推进金融领域腐败治理”也是2022年反腐败工作的重点领域。记者根据审查调查栏目信息梳理发现,2022年总计点名通报执纪审查中央一级银监系统干部50人;此外,中国人寿保险(集团)公司原党委书记、董事长王滨,招商银行股份有限公司原党委书记、行长田惠宇,中国人民银行原副行长范一飞,也相继被执纪审查。

林建成

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有