中国电信发布单体稠密万亿参数语义模型 用了普通训练方案9%的算力资源

来源: 极目新闻
2024-06-19 13:45:02

  每经记者 杨卉     每经编辑 魏官红    

  《每日经济新闻》记者了解到,针对大模型训练算力消耗高的问题,TeleAI与智源基于模型生长和损失预测等关键技术联合研发出的Tele-FLM系列模型,仅使用了业界普通训练方案9%的算力资源,基于112台A800服务器,用时4个月完成了3个模型总计2.3T tokens的训练。

  中国电信方面透露,Tele-FLM-1T版本即将开源,期望为社区训练万亿稠密模型提供技术参考,避免万亿模型训练收敛难等问题。

  据悉,作为最早布局并首先开源大模型的央企机构,TeleAI去年发布了千亿参数“星辰”语义大模型;今年2月,TeleAI自主研发的星辰大模型首次通过了“境内深度合成服务算法备案”。今年5月15日,根据北京市生成式人工智能服务备案信息公告,星辰大模型再次通过产品备案。“双备案”标志着星辰大模型可正式对外提供生成式人工智能服务。

  开源方面,TeleAI已接连开源7B、12B、52B参数规模大模型。随着TeleChat系列模型的发布,TeleAI还同步对多个大模型落地项目进行了能力升级,如在某市民生诉求场景项目上,通过引入TeleChat-52B模型能力,整体应用效果提升40%。

  ——这似乎是她近期一直以来的状态,参加《乘风破浪》的王心凌总在说自己心态不一样了,“没有想过一定要证明自己如何”,她更加自我、放松,就这样平稳、淡然地唱跳《爱你》,又掀起了一轮甜美风暴。

  从业人员指数为44.8%,比上月下降2.6个百分点,表明制造业企业用工景气度降低。

  北京语言大学校长刘利表示,该校已累计为21个阿拉伯国家培养国际学生超过8000人,每年有超过800位阿拉伯国家的教师、学生以及社会人士在北语开展学习研修,与沙特苏欧德国王大学、努拉公主大学共建中文系、开展商务汉语专科学位项目。

  为了提高美国社会对枪支暴力事件的重视,要求美国政府对控枪采取实质性的措施,很多美国的民间组织和团体一直在行动着。

  首先,从中美两国宏观经济基本面看,2023年中国处于主动去库存向被动补库存转化阶段,而美国则处于主动去库存阶段,中国宏观经济基本面领先于美国。

  <strong>⑩ EOD(生态环境导向开发新模式)</strong>

陈亭贞

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有