复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

来源: 格隆汇
2024-06-16 12:42:18

  新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。

  据悉,LLMEval是由复旦大学NLP实 验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评

  评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

  今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。

  詹德斌认为,尽管政治制度不同,但中韩在历史和文化方面的共性仍非常多。目前民间出现的“共性越多、矛盾越大”的奇怪现象只是历史长河中短暂的瞬间。随着后疫情时代的来临,中韩民间交流也将出现新的面貌。权起植也表示,随着韩中交流逐渐增加,韩国青年对中国的负面认知将会减少。

  不过让老司机好奇的是,就在山东舰航母编队抵近台湾东部海域,从根本上完成了在台岛周围形成密不透风的“封控闭环”之际,几天前被台湾某些人看作是“救命稻草”的美国“尼米兹”号航母打击群在哪里?

  3月25日,CDF年会举行当天,生物制药企业阿斯利康宣布再度扩大在华投资,拟投入约4.5亿美元建设生产供应基地。该公司全球CEO苏博科表示,“这只是第一步,接下来我们会有更多的投资。”稍早前,安利也表示将投资6亿元,对广州生产基地实施升级改造,建立大健康共享平台。

  4月20日,华为宣布实现自主可控的MetaERP研发,并完成对旧ERP系统的替换。为了表彰在此项目中做出重大贡献的相关团队和个人,华为在东莞溪流背坡村园区举办了“英雄强渡大渡河”MetaERP表彰会。

  “在全球众多受沙尘暴影响的国家中,中国政府是真正花力气来开展防沙治沙的国家之一。”李生宇说,中国投入大量资金,成立了很多专业的管理机构,也有大批科学家从事相关科学研究。张小曳也指出,可能和邻国相比,中国的努力和付出是最多的,这是要肯定的。

  在他看来,如果这样一个观光缆车建成的话,对上海的旅游会有很大的提升。“相信这样一个构想实现以后,能够成为上海的另外一个地标。”他说。

张国柱

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有