中国电信发布单体稠密万亿参数语义模型 用了普通训练方案9%的算力资源

来源: 中青在线
2024-06-19 14:18:20

  每经记者 杨卉    每经编辑 魏官红    

  《每日经济新闻》记者了解到,针对大模型训练算力消耗高的问题,TeleAI与智源基于模型生长和损失预测等关键技术联合研发出的Tele-FLM系列模型,仅使用了业界普通训练方案9%的算力资源,基于112台A800服务器,用时4个月完成了3个模型总计2.3T tokens的训练。

  中国电信方面透露,Tele-FLM-1T版本即将开源,期望为社区训练万亿稠密模型提供技术参考,避免万亿模型训练收敛难等问题。

  据悉,作为最早布局并首先开源大模型的央企机构,TeleAI去年发布了千亿参数“星辰”语义大模型;今年2月,TeleAI自主研发的星辰大模型首次通 过了“境内深度合成服务算法备案”。今年5月15日,根据北京市生成式人工智能服务备案信息公告,星辰大模型再次通过产品备案。“双备案”标志着星辰大模型可正式对外提供生成式人工智能服务。

  开源方面,TeleAI已接连开源7B、12B、52B参数规模大模型。随着TeleChat系列模型的发布,TeleAI还同步对多个大模型落地项目进行了能力升级,如在某市民生诉求场景项目上,通过引入TeleChat-52B模型能力,整体应用效果提升40%。

  英国《自然》网站在6日的报道中指出,建造实用量子计算机的竞赛正迈入新阶段。此前领先的一些技术,如超导量子比特等目前正面临扩大规模方面的限制,而其他“小众”技术正迅速迎头赶上。目前量子计算技术路线已呈现“百花齐放”态势,超导、离子阱、中性原子等竞相“争奇斗艳”,不过最终“花落谁家”仍是未知数。

  <strong>【背景】</strong>

  市场监管部门表示,郭、汪二位当事人销售明知掺有西布曲明等违禁成分的食品,受到媒体大量曝光,社会影响极其恶劣,市场监督管理部门依法依规将其列入严重违法失信名单,实施联合惩戒,限制其终身不得从事食品生产经营管理工作,将有力震慑食品领域违法犯罪行为,保障广大民众的身体健康和生命安全。

  要化解这些看似难解的症结,既要从家庭教育的视角出发,理解未成年人沉迷短视频现象的成因,辩证看待网络流行趋势对下一代人的影响,也要拿出更多实际行动,给未成年人的精神生活创造更丰富多元的选择。

  几分钟后,车辆驶入盐洛高速河南永城南服务区。服务区内停满了全国各地出行的车辆,车场内灯笼高高挂起,洋溢着新春的气息。

  在外务工,十分不易,相互扶持,必不可少。刘军令说,多年前,他刚到义乌时,害羞腼腆,为了省钱,和3个老乡合租一处,共用一个电饭煲做饭,吃的是水煮菜加点盐。如今已务工12年的他,自信、从容许多。“妻子和孩子都跟了过去。我们单独租了一套房子,空调、洗衣机都有。日子比过去好太多了!”说起现在的生活,刘军令很满意。

阮旭麟

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有