中国电信发布单体稠密万亿参数语义模型 用了普通训练方案9%的算力资源

来源: 新民晚报
2024-06-19 13:49:32

  每经记者 杨卉    每经编辑 魏官红   &nb

  《每日经济新闻》记者了解到,针对大模型训练算力消耗高的问题,TeleAI与智源基于模型生长和损失预测等关键技术联合研发出的Tele-FLM系列模型,仅使用了业界普通训练方案9%的算力资源,基于112台A800服务器,用时4个月完成了3个模型总计2.3T tokens的训练。

  中国电信方面透露,Tele-FLM-1T版本即将开源,期望为社区训练万亿稠密模型提供技术参考,避免万亿模型训练收敛难等问题。

  据悉,作为最早布局并首先开源大模型的央企机构,TeleAI去年发布了千亿参数“星辰”语义大模型;今年2月,TeleAI自主研发的星辰大模型首次通过了“境内深度合成服务算法备案”。今年5月15日,根据北京市生成式人工智能服务备案信息公告,星辰大模型再次通过产品备案。“双备案”标志着星辰大模型可正式对外提供生成式人工智能服务。

  开源方面,TeleAI已接连开源7B、12B、52B参数规模大模型。随着TeleChat系列模型的发布,TeleAI还同步对多个大模型落地项目进行了能力升级,如在某市民生诉求场景项目上,通过引入TeleChat-52B模型能力,整体应用效果提升40%。

  (作者为本报评论员 王俊岭)

  路透社6日援引智利国家消防局的消息称,智利目前面临着近年来最严重的自然灾害之一,中南部多地发生的森林火灾已致至少24人死亡,近千人在火灾中受伤。智利南部三个地区的森林和农田已经被烧毁。

  全国劳动模范、中国铁路上海局集团有限公司杭州客运段甬广车队党总支书记陈美芳说,“从一开始为旅客提供招工资料,到请企业上车现场招聘,再到在列车上直播……在浙江省总工会和各级工会的支持下,我们的‘揽才’方式也越来越丰富,希望能为劳动者提供更多更好的机会,让大家下了车门就入厂门。”(完)

  【学习笔记】

  “上次来北京还是2006年拍摄电视剧《岁月风云》。”香港女演员黄淑仪介绍,她在出发前特意看了《航拍中国》第四季作为旅行“功课”。喜爱冬季运动的她对于北京冬奥会仍念念不忘,“最期待的就是首钢园,能办冬奥一定错不了。”

  孟菲斯市议会副议长斯迈利曾经参与推动过去几年该市的警务改革。

张广才

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有