复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

来源: 南方周末
2024-06-22 21:53:58

躁躁躁日日躁「美味いね」  国家发展改革委等多部门日前联合印发通知,未来将对可再生能源发电项目全部电量核发绿证。这也就意味着,除了此前的集中式光伏和风电之外,常规水电、生物质发电、地热能发电、海洋能发电等所有可再生能源发电项目都将能拥有绿电“身份证”。这张证书究竟有什么作用?绿证核发全覆盖又将给市场带来哪些影响?aTjQFXz7-A8OHL8Ip5L1auH-复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

  新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。

  据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。

  评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

  今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro- 4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。

  记者今天从财政部了解到,为加快海河流域性特大洪水灾后恢复重建,日前(19日),财政部、水利部再次预拨5亿元国家蓄滞洪区补偿资金,支持天津、河北对国家蓄滞洪区运用期间群众的农作物、专业养殖、经济林、住房、家庭农业生产机械等水毁损失予以补偿,帮助灾区尽快恢复正常生产生活秩序,全力保障人民群众生命财产安全。

  明确教育强国建设的基本要求,切实以教育现代化支撑引领中国式现代化。习近平总书记指出:“我们要建设的教育强国,是中国特色社会主义教育强国,必须以坚持党对教育事业的全面领导为根本保证,以立德树人为根本任务,以为党育人、为国育才为根本目标,以服务中华民族伟大复兴为重要使命,以教育理念、体系、制度、内容、方法、治理现代化为基本路径,以支撑引领中国式现代化为核心功能,最终是办好人民满意的教育。”推进和拓展中国式现代化,要充分认识我国教育面临着内外部环境的深刻变化,全面应对科技革命、产业变革和人口结构变化给教育带来的挑战,有针对性地解决在建设教育强国上存在的差距、短板和弱项,实现我国教育新的系统性跃升和质变,有力回答好“强国建设、教育何为”的时代课题。

  全面提高教育治理体系和治理能力现代化水平。进一步用好教育评价的“指挥棒”,抓好《深化新时代教育评价改革总体方案》落实落地,统筹推进育人方式、办学模式、管理体制、保障机制改革。坚持教育公益性原则,加快构建优质均衡的基本公共教育服务体系,扩大优质教育资源覆盖面,不断缩小教育的城乡、区域、校际、群体差距。深入实施教材建设和管理行动,把握正确政治方向和价值导向,进一步提升教材质量,增强育人功能,提高教材管理效能。深化教育数字化战略行动,发展公平包容、更有质量、绿色发展、开放合作的数字教育,着力开辟教育发展新赛道,塑造教育发展新优势。

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有