复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

来源: 顶端新闻
2024-06-16 01:48:51

  新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。

  据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。

  评测选取2024高考数学新 I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GP

  今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。

  在上海,浙江省党政代表团考察徐汇区行政服务中心,了解高效推进优化营商环境情况;参观浦东展览馆,领略浦东开发开放的生动实践和巨大成就;走访长三角资本市场服务基地,学习构建长三角服务网络经验做法;走进上海数据交易所,了解推动数据要素流通、释放数字红利等情况;考察上海亿通国际股份有限公司,感受科技创新带来的蝶变。

  第一个阶段是4月8日,主要是“利剑出鞘,联合夺权”。利剑出鞘,部队快速部署到位;联合夺权,检验联合作战体系支撑下夺取制海权、制空权、制信息权能力。

  据了解,深圳人才房签订买卖合同10年后,可根据有关规定申请100%产权上市交易。这意味着购房者在买房的10年内,无法卖房。

  近年来,北京共有产权房发展在业内受到不少好评。有北京市民告诉中国新闻周刊,其2020年在北京亦庄开发区购买的共有产权房,其售价仅有市场的一半,户型和周边配套方面也比较满意,但硬性条件是需要在亦庄开发区内就业。

  “你看,香港那些百年服装企业无法在香港生产任何产品,但它们依然活得好好的,甚至做到百亿销售额。不用担心产业的必然转移,要保证行业上游的企业跟得上技术进步。行业萎缩也许不可避免,但不会消失。”谢海龙说。

  决定面向海外做零售生意后,胡合斌选择在亚马逊和速卖通开店,而非自建独立站。“在亚马逊开店,要在海外仓备货,因为电商节奏快。”当时的流量并不贵,但由于缺少运营经验和专业的人才,销售不佳,物流和库存成本高企,店铺被压垮,胡合斌很快亏掉一百多万,黯然退场。

陈雨喜

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有